﻿UNiVERSiTATEA BUCUREsTi ACUiTATEA DE SOCiOLOGiE, PSiHOLOGiE sl PEDAGOGiE Conf univ dr DUMiTRU SANDU STATiSTiCa iN sTiiNtELE SOCiALE Probleme teoretice si aplicatii pentru invatamintul universitar BUCUREsTi 1992 ;: * * Cum este conceput volumul 91 cum poate fi utwzat; 7 , 1 RELAJl iNTRE DOUA VARiABiLE CANTiTATiVE ; ’ ••   "   ' ѵ'" "variatie ' ' 2" REORESiE MULTiPLA • regresieputialanertandardizata " , -ngresie partiali standardizata   • coeficientii de elasticitate ’ '     -determinatie partiala timultipll , ‘ >'•• • ' • ‘corelatiemuhipla - ' ' • folosirea variabilelor fictive 3 relatii intre variabile , MaSURATE NOMiNAL SAU ORDiNAL   ' 4 MODELE LOG-UNiARE (analiza multivariati cu variabila calitative) * corelatia rangurilor * "deficientul gama * coeficientii lambda fi tau * testul x2 pentru asociere fi concordanti > • - modele log-liniare nerestrictive - modele log*liniareiestrictive * compararea modelelor log-liniare 5 CLASiFiCaRi EMPiRiCE • clasificare si ordonare MULTiCRiTERiALE (analiza i - • , ' mediana -: - Ward 6 EsANT1ONARERA * obiective si principii , k • selectie: simpla aleatoare sistematica - stratificat! a gruparilor (clusier) • rcprczentativitate si interval de incredere ‘ marimea esantionului 7 MODUL STATiSTiC DE *reduc(iomsms(atistictireduc[ionisminaplicareastatisiicii GlNDtRElNsTWJTLE * paradigme de selectie, analiza ti sinteza in statistica SOCiALE • constructivismul statistic in stiintele sociale ANEXE * distributia normala - tabele statistice Acest volum este conceput ca suport pentru cursurile de statistica sociala de nivel mediu si avansai din facultatile de stiinte sociale, de sociologie in mod special Algoritmii de calcul sint prezentati la lucru**, prin aplicatii diverse, extensive, care merg uneori pini la dimensiunea unor microstudit Mai mult decit simplele exercitii, relativ usor de gask in manualele dc statistica sociali, aplicatiile de acest tip sint menite sa contribuie la formarea unUi mod de gindire statistic in stiintele sociale Cel care le parcurge - student, doctorand sau profesor - va fi confruntat cu fascinantele provocari ale aplicarii metodelor statisticii ia cunoasterea lumii sociale in condi{iile in care pachetele de programe de calcul statistic pentru stiintele sociale au capatat o larga circulatie, discutarea problemelor de selectie sau aplicare a metodelor si, mai ales, a celor asociate cu interpretarea rezultatelor, devine o componenta fundamentala a invatarii acestei discipline Privit din perspectiva aplicatiilor sale si a modului de gindire pe care il sustine, volumul poate fi considerat si ca o introducere in sociologia statistica A SUMAR* Cwn "Л coacaput volumul fi ew* poate fi utilizat 1 RELAtii inTRK DOUA VARiABiLE CANTiTATiVE: regrese simpla, CDVARiAtE 9 CORELAtiE 13 LL Prezentare generali 13 iX Notiuni elementare in regresie simpli influenta migratiei asupra natalitltii 14 LXi Coeficientul de regresie 16 1X2 Reguli de citire a coeficientului de regresie 16 1 23 Ecuatia si dreajxa de regresie 16 1 2 4 Formule de calcul 17 1X5 Variatie totali, explicat! si neexplicatl 21 1X6 Coeficientul de corelatie 22 1 3 Probleme de interpretare a corelatiei si regresiei 25 1 3 1 Postulatele regresiei 25 1 3X Semnificatia coeficientilor de regresie si de corelatie 31 - Semnificatia coeficientilor de regresie 32 • Semnificatia coeficientilor de corelatie 34 1 33 intervale de incredere 34 1 4 Semnificatia statistici, semnificatie de continut si predictie • Aplicatie la relatia dintre mirimea locuintei si densitatea de locuire 36 XREGRESiA MULTiPLa 41 XL Prezentare generali 41 XX Formule de calcul XXL Coeficienti de regresie partiala beta, de elasticitate si de importanti de nivel 44 2X2 Estimarea importantei unei variabile independente 46 X3 Conditii de aplicare 5° X4 Semnificatia corelatiei multiple si a coeficientilor de regresie partiali 51 23 Aplicatie te explicarea variatiei mtcrjodetenc a densitltii de locuire (suprafati locuibili pe peraoani) 56   Paragrafele sau subcapitolele marcate in lucrare prin cursive, prezinti un grad de complexitate sporit si sine destinate, in principal, "avansatilor" sau celor care parcurg lucrarea sistematic, asimilindu-i intregul continut 5 2 5 2Structuridc locuire -"- гЛ -,      ?<>s ; "" 797 2 7 Regresia cu variabile fictive : g-j ; 3 RELAtii iNTRE VARiABiLE MaSURATE ORDiNAL SAU NOMiNAL ‘ 3 1 Asocierea variabilelor ordinale 7 к % ТЛ , 867 :3 1 1 Coeficienti de corelatie a rangurilor si deconcOTdanta 77 ^ 86 ’ 3 1 2 Coeficientul gama У '9%'   Clasificari cu o singura legaturii * - - 142 • Clasificari cu legaturi medii 147 • Clasificari cu legaturi complete 149 • Metodele centroida si mediana 151 • Metoda variatiei minime (Ward) 152 6 i " -  Generarea gruparilor pe tatlde leaturi complete ' ? 1S4 • Similaritate veni" distanti 164 5 6 Structuri, tipuri fi arii socio-culturak rurale: chistere de unitati ti cluslere de indicatori 166 5 6 1 Profilul cultural al unei zone rurale 166 5 6 2 Structuri sodo-culturale rurale 170 5 6 3 Grupari fi arii socio-culturale rurale 174 5 6 4 Profiluri dominate ale ariilor culturale jgzt 6 RELAtii DE REPREZENTATTViTATE: EsANTiONAREA 184 6 1 Obiective 184 6 2 Populatia sau universul de esantionare 186 6 3 Selectia probabilistici si neprobabilista 188 6 4 Cum se poate construi un esantion probabilist? 189 - Situatia de esantionare 189 * Esantionarea simpli aleatoare si cvasialeatoare (sistematici) 193     ’   Volumul poate fi Colorit ta mod diferential, deci dictare diferite categorii de эи PiATRA NEAMt oradea' REsitA CLUJ BV SB TOM ARAD i i - 103 BACaU N L І  4 ••••* TiMisOARA CONSTANta BRaiLA U CRAiOVa : > ПЗ М3 iMiGRARE Ag 12 1 Regresie natalititii asupra imigrarii Orase mari 1985 15 formulata: unui nivel redus al imigrarii in orasele Arad, Sibiu Constanta, Timisoara Craiova ii corespunde o rata scazuta a natalitati in situata opusa, cu valori ridicau pentru ambii indicatori sint orasele Buzau, Bacau, Baia Mare, Botosani 1 Odata avansata ipoteza unei relatii cauzale de b imigrare spre natalitate, vrem sa stim cit de puternica este aceasta relatie cu sens specificat 1 2 1 Coeficientul de regresie Pentru a raspunde b ihtreboe se calculeaza coeficientul de regresie Determinarea sa implica folosirea celor doua serii de date -rata migratiei si rata natalitati in plus, se precizeaza care dintre variabile este cea dependenta, notata de obicei cu у (natalitatea) si care are rol de predictor de variabila independenta, notata conventional cu x (migrata) in exemplul la care ne referim, coeficientul de regresie are valoarea b^ = 0,41 se citeste , egresia lui у asupra lui x" sau "regresia lui у in x sau in functie de x" * • " Valoarea coeficientului respectiv indica faptul ca o crestere cu un 1 a ratei de imigrare tinde sa fie insotita in medie, de o crestere cu 0,41 a ratei de natalitate Voloarea coeficientului de regresie se exprima ca raport intre unitatea de masura specifica variabilei dependente si unitatea caracteristica variabilei independente 1 2 2 Reguli de citire a coeficientului de regresie Cu cit valoarea sa absoluta (indiferent de semnul algebric care П precede) este mai mare decit zero, cu atic este mai puternica influenta variabilei independente asupra celei dependente - Silflnurplui indica o relatie pozitiva, de directa proportonalitate intre predictor si variabila dependenta, iar semnul minus o relatie negativa, de inversa proportonalitate (cresterea valorii predicatorului - x - este insotta de o reducere corespunzatoare a lui у - variabila dependenta) 1 2 3 Ecuatia si dreapta de regresie Coeficientul de regresie este termenul esential al ecuatiei de regresie O astfel de ecuatie este expresia matematica a relatiei dintre cele doua variabile analizate: y = a + bx 1 2 1 unde: у = variabila dependenta x = variabila independenta b = coeficientul de regresie a = termenul "liber" al regresiei, avind mai mult semnificatie ca element de calcul, fara un corespondent precis in interpretarea propriu-zisa a legaturilor analizate Expresia matematica anterioara indica deci faptul ca variata variabilei у este functie de variata predictoruliri x inmultita cu coeficientul b Coeficientul respectiv poate fi interpretat si ca simbol al "legii" sau regulii de transformare a lui x si y, sau de influentare a lui у de catre x in cadrul ecuatiei de regresie x si у sint simboluri pentru variabile, iar a si b sint parametrii Variabilele pot lua orice valoare in cadrul unor limite date de natura lor Spre deosebire de ele, fiecare dintre parametrii nu pot lua decit cile o singura valoare in cadrul aceleiasi ecuatii 16 i b general, in statistica parametrii sint valorii tipice сие г fwrrntiT" 1 lai  atatiM despre o masa de observati Cel mai frecvent otUiatf "tot parametrildeaivei tas aij* tendintei centrale (medie, mediana, mottal) fl cd de di^ersie (atiiih^ acmdard, -dispersie, coeficient de variatie) Coeficienti de regratie, de coretatte,deccnStageata mc pot fi considerati parametrii ufo relatie*4 - •   ? DATELE DE iNTRARE pentru calcularea coeficientului de regresie stot valorile • - concrete corespunzatoare celor doua variabile a fi y :   in tabelul 1 2 1 stat prezentate sirurile de date pentru a -rata imigrarii fi pentru у-гфадео йфй ж   -'л   : • • " '     CoeficieMtl de regresie: b^s—1 Pentru exemplul dat, semnificatiaacestor simboluri este: x = valoarea imigrarii ta orasuli; x=media indicelui de imigrare pentru toate cete 21 de orafe, egala cu 13,79;   y{" valoarea natalitatii ta oraful i: • ; ' V:’-',?7Sv у = media indicelui de natalitate, egala cu 1536 : - Corespunzator: • -Л ' ' ‘ b • (8,47   13,79) • (1135 -1536) + (20,98 -13,79) - (19,22 -1536) + " * (847-13 79)4(2038-13,79)"+ + + (839 -13,79); (14,0-1536) + + (8,99-13,79)" Numaratorul din formula 12 2 poarta numele de covariajie, fiind o masurii elementara a modului ta care x fi у variaza conjugat ta jurul mediilor lor specifice Cu ' cil suma produselor dintre (x - x) • (y - y), pentru unitatile luate in calcul, este mai' mare, cu atit covariatia celor doua variabile este mai polemica   O prima relativizare a acestei masuri se obtine prin impartirea ei la numarul de unitati obinindu*se covariMta, notata cov (x, y): cov 1 13 •tacominu"v,tatoc de ^fiypvom noux si y Simbolul   va indica in toate cazurile suma delaisite П- Daca se imparte atit numaratorul cit ji numitorul formulei 1 2 2 cu n rezulta: b " cov(x, y) dispersia variabilei x Tabel 13 , REGRESiA NATALiTatii ASUPRA iMGRaRiL Orase mari, 1985 ORAs Rata imigrarii (sosirii la i 000 locuitori) Rata natalitati (n&scut vii la 1 000 loc ) Valoarea asteptata a natalitatii functie de imigrare Diferenta dintre valoarea reala a natalitatii si cea asteptata (valori reziduale) X У y' y-y' ARAD 8,47 1155 13,15949 -1,60949 BACaU 20 98 1922 1834435 0,87565 BAiA MARE 23,65 20 61 19,45095 1 15905 BRAsOV 9,47 12,40 1357395 -1,17395 BRaiLA 8 61 13,65 1321751 0 43249 BOTOsANi 32 25 24 30 23,01528 128472 BUZaU 18,72 18,14 17 40768 0 73232 REsitA 1551 14,42 16,07727 -1 65727 CLUJ 13,79 1356 1536440 -1,80440 CONSTANtA 10 28 13 25 13 90966 -0,65966 CRAiOVA 8,39 14,00 13,12633 0 87367 TiMisOARA 11,44 12 66 1439043 -1 73043 GALAti 7 81 14,91 12 88595 2,02405 iAsi 853 17,10 13,18436 3 91564 ORADEA 16 47 15,34 16 47515 -1,13515 P NEAMt 20,67 16,29 1821587 -1,92587 PLOiEsTi 8,20 14,22 13 04759 1,17241 PiTEsTi 9 88 13,98 13 74387 023613 SATU MARE 17,07 16,52 16,72382 -0 20382 SiBiU 10,38 к 1252 13,95110 -1 43110 TG MUREs 8 99 i 14,00 13,37501 0,62499 Medie 13,79 15,36 153638, 0 Abatere stand 651 3,10 2,6982 15327 • CxJ* 2i de orase sini considerate ca esantion fl> consecinta, calcularea abateriloi standard se face prin impartirea sumei abaterilor de la medie lan -1 -21-1 18 > Coeficientul de regresie poate fi interpretai, deci, si ca raportat intre covarianta celor doua variabile si dispersia (varianta) variabilei independete O formula de calcul a lui (b), care nu implica folosirea mediilor poale fi mai utila in anumite situatii (in special clnd se foloseste calculatorul): , n     xy  ( x) • (ly) n-Lx2- (Xx)2 1 2 4 1 2 5 1 2 6 Formula cea mai simpla pentru calcularea valorii lui (a) din ecuatia de regresie este: a = у - bx Deci, cu datele exemplului de calcul: a = 15,36 - 0,41446 • 13,79 = 9,64 Fara folosirea mediei, (a) se calculeaza: Xy-b-Xx a= — - n Dreapta de regresie Distributia oraselor in graful din figura 1 2,1 sugereaza clar relatia directa (pozitiva) si liniara dintre natalitate si imigrare Mai mult decit norul de puncte corespunzatoare oraselor, legatura dintre cele doua variabile este exprimata prin dreapta de regresie (AB in fig 1 2 1 ) Aceasta este astfel trasata ineii suma patratelor distantelor verticale de la orice punct care reprezinta orasul si pina la ea sa fie minima Deci, orice alta dreapta trasata in spatiul axelor OX si OY are asociata o suma mai mare a patratelor distantelor verticale de la puncte la dreapta respectiva Dintre toate liniile care pot fi trasate in planul circumscris de axele OY si O, linia de regresie (sau linia celor mai mici patrate1*) este cea mai apropiata de punctele prin care se reprezinta pozitia obiectelor analizate Trasarea dreptei de regresie se poate face cu ajutorul a doua din valorile asteptate (ajustate sau estimate) ale variabilei dependente (y') in functie de coeficientul de regresie deja determinat si de doua valori ale variabilei independente alese la intimplare Sa alegem, spre exemplu, orasul Botosani, cu cea mai mare imigrare (de 32,25%o) introducem aceasta valoare in ecuatia de regresie: Un punct al dreptei de regresie este situat, deci, la intersectia dintre perpendiculara ridicata de pe axa OX in punctul x = 32,25 si perpendiculara ridicata de pe OY in punctul y' = 23,03 Pentru a determina cel de-al doilea punct al dreptei de regresie alegem un alt oras - Arad, spre exemplu Aceasta are indicele de imigrare minim in serie, egal cu 8,47 Cel de-al doilea punct cautat pentru a trasa dreapta de regresie este deci dat de coordonate x - 8,47 si у = 13,15 in functie de cele doua puncte mentionate se poate trasa dreapta de regresie din figura 1 2 1 si mai simplu, cel de-al doilea punct in functie de care sa fie determinata dreapta respectiva, poate fi valorea termenului (a) din ecuatia de regresie, considerata ca valoare a lui у pentru x = 0 in exemplul ales, cel de-al doilea punct cautat ar fi 9,64 masurat pe ordonata (axa OY) Proprieiafi ale drepiei de regresie: - punctul in care aceasta intflneste axa OY este egal cu valoarea termenului liber al regresiet (a) Rezulta deci ca (a) poate fi interparctat ca valoare asteptata a variabilei dependente in situatia in care prcdictorul are valoarea x = 0; - punctul prin care se reprezinta in graful dreptei de regresie intersectia dintre cele doua medii (x, y) se afla pe dreapta de regresie; - cu cit aceasta se abate mai mult de kTpozitia orizontala a axei OX, cu atit coeficientul de regresie are o valoare mai mare Daca dreapta de regresie este paralela cu OX, atunci cele doua^grigbijg^sint independente; - toate valorile j^ptanie are lui y', determinate pornind de la parametrii a si b ai ecuatiei de regresie sint situate pe dreapta de regresie; ' - daca urna oe regresie este inclinata de la dreapta la singa (extremitatea ei din dreapta este mai sus decit cea din stinga), relatia dintre x si у este pozitiva, de directa proportionalitatc inclinarea ei in sens invers, de la stinga la dreapta, semnifica o relatie negativa, de inversa proportionalitate intre variatia lui x si cea a lui y Simpla urmarire a raportului dintre dreapta de regresie si diferitele puncte ale figurii poate sugera ipoteze de cercetare Revenind la exemplul de lucru, se poate remarca usor faptul ca orasele si uate la cea mai mare distanta de dreapta de regresie, deasupra ci, sint din Moldova - iasi, Galati si Botosani in tabelul 1,2 1 , acestora le corespund cele mai mari valori pozitive ale diferentei dintre valoarea reala a natalitatii (y) si cea teoretica (y')t + 3,92, + 2,02 si respectiv > 1Д8 pentru Botosani Citirea corelata a figurii 1 2 1 si a tabelului 1 2 1 indica si o alta tendinta: majoritatea oraselor situate sub dreapta de regresie, ia o distanta considerabila (conform datelor din coloana a 4-a tabelului) sint din Transilvania, Banat si Crisana impreuna cu valoarea diferentei dintre (y-y') aceste orase sint: Cluj (-1 80) Timisoara (-1 73) Resita (-1,66) Arad (-1 61) Sibiu (-1 43) Brasov (-1 17) Oradea (-1 14) 20 ' Exceptia marcanta de la ceie doua regularitati mentionate o constituie Piatra Neamt Desi este oras moldovenesc, are o natalitate mai mica decit cea asteapcata, si, in consecinta, este situat sub dreapta de regresie, in seria oraselor din arcul intracarpatic ipoteza sugerata de aceste observatii poate sustine ca orasele moldovenesti, fata de cele "de peste munti** sint caracterizate si prin modele culturale diferite in domeniul comportamentelor de reproducere a populatiei Daca numai imigrarea si factorii asociati ei (structura de virsta a populatiei, compozitia ei sociala etc ) ar explica variatia teritoriala a natalitatii, atunci diferentele dintre valorile teoretice si cele reale ale variabilei dependente (diferente denumite si reziduuri sau erori de predicatie) ar fi foarte mici, apropiate de zero Cazurile de abatere de la dreapta de regresie din fig 1 2 1 indica insa necesitatea de a cauta si include in analiza si alti factori decit migratia Dezvoltind acest exemplu, vom relua o astfel de problema cu ocazia prezentarii regresiei multiple inainte de aceasta insa, se cer a fi precizate si citeva elemente necesare pentru interpretarea regresiei simple 1 2 5 Variatie totala, explicata si neexpllcata O prima serie de analize care trebuie intreprinse in legatura cu coeficientul de regresie urmaresc determinarea gradului de respectare a premiselor (postulatelor) in baza carora se calculeaza respectivul coeficient Daca rezulta ca nu exista abateri considerabile in legatura cu respectarea lor atunci se pune problema aplicarii unui al doilea set de teste legate de intrebarile: , depinde variatia lui у in mod semnificativ de cea a lui x?" si daca da, atunci in ce masura "explica" ultima pe prima Pentru a raspunde la aceste intrebari, un element esential este descompunerea variatiei totale a variabilei dependente in partea asociata cu variabila independenta (variatie "explicata") si in partea neasociata cu aceasta din urma (variatie "neexpli cata") [Variatia totala^e masoara ca suma a patratelor diferentelor variabilei у fata de media corespunzatoare Variatia totala a unui anumit indicator poate fi estimata prin abaterile pe care valorile sale individuale le au in raport cu media serici respective de date Pentru ca aceste abateri sa nu se anuleze intre ele prin insumare, se ridica intii la patrat Astfel, natalitatea la Arad era, in exemplul dat, de 11,55%o Abaterea ei in raport cu media pe totalul celor 21 de orase este de 11,55 -15,36 = - 3,81 sau prin ridicarea la patrat a acestei valori, de 14,52 Calculind pentru intreaga scrie de orase patratele respective, rezulta E (y y)2 = 192,59 unde: 1 2 7 у = natalitatea in orasul i, у - nivelul mediu al natalitatii Prin analiza de regresie se presupune ca variabila independenta (x, imigrarea in exemplul folosit de noi) "explica** sau determina o anume parte din variatia totala a 21 variabilei independente Pentru a afla cit anume din variatia lui у se datoreste iui x, se calculeaza suma patratelor diferentelor dintre valoarea teoretica a lui у in baza ecuatiei de regresie (у *) si media corespunzatoare valorilor reale ale lui y: z (yyP = (13,16-1536)2+(18,34-1536)"+ + + (13,95-1536)*+ (13,38-1536)*= 145 61 1 2 8 Raportul dintre variatia valorilor teoretice ale lui у in functie de x si variatia valorilor sale observate ofera o masura a gradului in care variatia variabilei у este explicata** de variatia lui x Acest raport se noteaza cu r* cheamatfQeTicienHi^ieiennniatje^i se Deci: rJ = Ky'-y)1 i(yj-y)2 1 2 9 in exemplul de explicare a natalitatii prin migratie, r* = 145,61 192,59 = 0,76 inmultind cu 100 valoarea obtinuta a lui rz, rezulta 76 in consecinta, se poate spune ca 76% din variatia intre orase a natalitatii este explicata de variatia indicelui de imigrare in raportul din formula 12 9, numitorul indica variatia totala a variabilei explicate Numaratorul semnifica variatia explicata a lui у in functia de x Cantitatea care ramine din variatia totala dupa ce se scade aceasta variatie explicata se cheama variatie neexplicata Calcularea ei se poate face prin insumarea patratului diferentelor dintre valorile teoretice si cele observate ale lui y: variatia neexplicata = S(y -y')* 1 2 10 sau ca diferenta intre variatia totala (1 2 7) si variatia explicata (1 2 8) Adoptind acest ultim procedeu rezulta, pentru exemplul ales: variatia neexplicata = 192,59 - 145,61 = 46,98 1 2 6 Coeficientul de corelatie Pornind de la valoarea coeficientului de determinatie, poate fi derivat coeficentul de corelatie Bravais-Peaison, notat cu r 1-2-11 Cu ajutorul acestui coeficient se masoara gradul de imprastiere al valorilor variabilei dependente in jurul liniei de regresie Formule de calcul uzuale pentru determinarea valorii coeficcntului de corelatie: r=   *)'   y) 12 12 Цх-х)*-Цу-уУ sau, fara ajutore) mediei: t n Exy- ( x) ( y) — — 1213 > (nZx*-(ixy) • (n -  y*-(Ey)*) ‘ ‘ , Drca valorile celor doua variabile au fost in prealabil normalizate cu iestul " = (x - x)   sb (unde x - media variabilei iar s - abatereaei standard), atunci: 1 2 15 si Y iar n - numarul unitati: Prin normalizarea cu z, variabila initiala este transformata intr-o variabila cu medie zero 51 abaterea standard l in noua ei forma, are ca unitate de masura abaterea standard Normalizarea este indicata in special in situatiile in еже se pune problema agregarii sau compararii unor variabile care au unitati de masura diferite Daca variabila transformata cu ajutorul testului z are o distributie normala, atunci valorile ei se inscriu in proportie de 99,9%, in spatiul de variatie de la (+ 3,16) la (-3,16) Valorile care depasesc media cu mai mult de 3,16 abatere standard sint aberante11 in sensul ca nu se incadreaza in aria curbei normale Cu testul Huli se poate obtine o modificare a transformarii z astfel incii noua variabila sa aiba limita minima zero si cea maxima 100, media egala cu 50 si abaterea standard 14 in functie de covarianta acelasi coeficient poate fi calculac 1 2 16 unde: sx, sy - abaterile standard ate variabilelor x si respectiv y; соѵ(л у) - covarianta dintre x si y, calculata conform formulei (1 2 3) Daca dispunem de valorile coeficientului de regresie si de valorile abaterilor standard, coeficientul de corelatie poate fi determinat Proprietati ale coeficientului de corelatie: 1) variaza intre - 1 fi 1 Cu cit asoepea dintre cele doua variabile este mai puternica, valoarea sa absoluta este mai apropiata de (+ i) sau de (  1) Un nivel redus al asocierii este semnificat de o valoare a lui r apropiata detg^Dupa cum rezulta dm formula (1 2 9) a coeficientului de determinare din care este derivata formula (1 2 11), cu cit valoarea absoluta (fara semnul + sau -) a coeficentului de corelatie este mai mare, cu atit este mai redusa ponderea variatiei reziduale din variatia totala Aceasta pentru ca, reamintim, variatia explicata care formeaza numaratorul din formula (1 2 9) este egala cu variatia totala, minus variatia reziduala (= Z(y -уУ) ; 2) este o masura^standardizata a asocierii, independenta de unitatile de masura in care sint exprimate variabilele corelate De notat, deosebirea sa, din acest punct de vedere, fata de coeficientul de regresie, exprimat prin raportul intre unitatile de masura specifice pentru variabila dependenta (y) si cea independenta (x) Expresia cea mai clara a acestei standardizari este data in formula (1 2 15) unde г se calculeaza ca medie a produselor dintre perechile de valori x si у apartinind a doua vanabile anterior normalizate Or, pnn aceasta normalizare cu (z) se face o transformare a variabilei masurate in unitati specifice, intr-o variabila exprimata in unitap de abatere standard: valoarea initiala este inlocuita cu abaterea ei fata de media seriei de date de care apartine impartita la abaterea standard a aceleiasi serii; 3) considera relatia dintre variabilele incluse in calcul, ca relatie simetrica in care aspectul fundamenta* care intereseaza este cel al covariatiei (vezi formula 1 2 16) in ecuatia de regresie si in coeficientul corespunzator ei, relatiile sint considerate ca asimetrice, cu un sens determinat in acest ultim caz, operatia de calcul este precedata dc decizia calitativa de atribuire a statutului de variabila independenta si respectiv dependenta; 4) este direct proportional cu valoarea coeficientului de regresie, ajustata insa cu raportul dintre abaterile standard ale variabilelor puse in relatie (vezi formula 1 2 17) Datorita faptului ca variatia unei variabile este in mare masura specifica populatiei sau esanuonului pentru care se analizeaza, rezulta ca si valoarea coeficientului de corelatie este in mare masura specifica in schimb, coeficientul de regresie in a carui formula de calcul nu intra cele doua abateri standard, are o mai marc independenta, valoarea sa fiind semnificativa in mai mare masura pentru regularitatea care leaga cele doua variabile AViND iN VEDERE ACESTE ASPECTE ESTE DE PREFERAT UTiLiZAREA COEFiCiENTULUi DE REGRESiE PENTRU A REALi2 A (’QMPaRATiLALE aCELBas! RELAtii WrRE CONTEXTE SAU POPULAtii DiFERiTE  jN*  УЩуй PFVTPlt A COMPARA iNTENSiTATEA UNOR RE Lati l  DiFERiTE iN CADRUL ACELUiAsi CONTEXT DE ANALiZa ESTE DE PREFERAT FOLOSiREA CtjfcMClhN'l 1EUR UE LURELA | iE Pentru cazul relatiei dintre migrape si natalitate, coeficientul de corelatie poate fi calculat cel mai simplu cu ajutorul formulei: r=b   i = 0,4145-^ = 0,87 я у 3,10 in functie de datele si mijloacele de calcul disponibile, poate Гі utilizata in acelasi scop oricare din formulele 1 2 12-1 2 16 Se poate sustine deci, ca relatia dintre migrape si natalitate era pozitiva si puternica la nivelul oraselor mari din Romania, la mijlocul deceniului al noulea in tabelul 1 2 2 sint prezentate comparativ valorile coeficientilor de corelatie si regresie (a natalitatii asupra migratiei) pe trei categorii de orase Pentru orasele mici, valoarea coeficientului (b) a fost calculata numai in scop ilustrativ Coeficientul de corelatie fiind practic egal cu zero, rezulta ca in acest caz cele doua vanabile au fie o variatie independenta, fie sint asociate printr-o relatie de tip neliniar (masurabila prin alti coeficienti decit cei anterior prezentati) Fiind vorba de analiza aceleiasi relatii in trei situatii diferite rezulta, conform uneia dintre recomandarile anterioare, ca este dc preferat comparapa intre coeficientii dc regresie celei intre coeficientii de corelatie 24 Tabet 1 2 2 Natalitate (у) sl imigrare (x) pe tipuri de orase indicator Orase mari (+ 100 mii locuitori) Orase mijlocii (50-100 mii locuitori) Orase mici 20-50 mii 1 locuitori) | 21" 24" 30- | X 13,79 23 50 15 51 | У 15 36 19 65 18,28 І s 6,51 9 17 7,73 І % 3 10 3 32 2,20 І r 0,87 0,75 0 05 b r* 0,41 0,27 0,02 * numar orase considerate Atit imigrarile cit si natalitatea au valori mai ridicate in orasele mijlocii decit in cele mari influenta primului fenomen asupra celui de al doilea este mai marc insa in orasele mari decit in cele mijlocii (compara valorile coeficientilor b) Deoarece in analiza au fost incluse toate orasele mari (cu exceptia Bucurestiului) si toate orasele mijlocii, se poate considera ca determinarea coeficientilor a fost facuta nu pe doua esantioane, ci pc doua populatii diferite Din acest motiv am apreciat ca cei doi coeficienti dc regresie pot fi comparati direct, fara efectuarea unor teste prealabile de semnificatie Daca insa vom considera cele doua colectivitati de analiza ca esantioane, atunci vor trebui efectuate o serie de teste pentru fundamentarea interpretarii 1 3 PROBLEME DE iNTERPRETARE A CORELAtiEi sl REGRESiEi 1 3 1 Postulate ale regresiei Aplicarea unui model de regresie liniara simpla este bazata pc premisele sau postulatele: 1 liniaritatii relatiei dintre variabile* 2 normalilatii distributiei bidimensionale (in functie de cele doua variabile) a datelor; 3 egalitatii dispersiilor ("conditionate" ale) variabilei dependente pentru valon date ale variabilei independente (postulatul omoscedasticitatii), 4 independentei termenilor succesivi ai seriei de date sau a reziduurilor corespunzatoare acestor termenii ( J 5 masurii variabilelor puse in relatie fara erori (absenta erorilor de masurare) Analiza erorilor de masurare (reziduurilor) care apar ca diferente intre valorile observate si cele estimate ale lui у constituie principala cale de a alia daca aceste postulate au fost respectate sau nu intr-un caz dat 6 O premisa complexa a aplicarii modelelor de regresie se refera ia specificarea corecta а ecuatiei de regresie: a) includerea in ecuatie a tuturor variabilelor independente relevante pentru variabila explicata; b) neincluderea in ecuatie a unor predictori care teoretic nu pot fi pusi in relatie cu variabila dependenta si c) alegerea ecuatiei de regresie corespunzator formei liniare sau neliniare a relatiilor dintre variabilele puse in relatie Eroarea de specificare data de nerespectarea acestor ultime trei premise este asociata cu nerespectarea postulatelor liniaritatii (1) si egalitatii dispersiilor (3) Tabel 1 3 1 Valorile seriilor da data implicata in regrosia natalitatii asupra imigrarii, normalizata cu scorul z ORAs imigrare Natalitate Valori reziduale X У У-  * ARAD -0 82 -133 -1 02350 BACaU 1 10 135 035684 BAiA MARE 131 1 69 0 73706 BRAsOV -0 66 -0,95 -0 74653 BRaiLA -0 80 -035 037502 BOTOsANi 2 84 2 88 0 81697 BUZaU 0 76 0 90 0 46569 RE5tA 0 26 -0 30 -1 05388 CLUJ 0,00 -038 -1,14744 CONSTANtA -034 -0 68 -0 41948 CRAiOVA -0 83 -0 44 035558 TiMisOARA -036 -0,87 -1,10040 GALAti -0 92 -0,15 1 28712 iAsJ 0 81 036 2,49001 ORADEA -0,41 -0 01 -0,72185 P -NEAMt 1,06 0 30 -132468 l’LOiEsTi -0,86 -0 37 0 74555 PiTEsTi -0 60 -0 45 0 15016 SATU MARE 030 0 37 -0,12961 SiBiU -032 -0 92 -OJ91006 TC MUREs -0 74 -0,44 039744 in genere se considera ca modelul ecuatiei dc regresie poate fi aplicat si daca se inregistreaza abateri care nu sint foarte grave de la primele patrp postulate (liniaritate, normalitate, egalitatea dispersiilor si independenta termenilor succesivi ai regresiei) in aceasta perspectiva, regresia este o metoda "robusta" in sensul ca poate fi aplicata si in conditii "vitrege" cind premisele ei nu sint respectate integral Distorsiuni puternice in estimarea coeficientilor ecuatiei de regresie apar insa atunci cind nu sint satisfacute postulatele masurarii corecte a variabilelor si specificam corecte a modelului (Bohmstedt, Carter 1971) in tabelul 1 3 1 sint prezentate valorile normalizate (prin impartirea abaterii lor de la media seriei cu valoarea abaterii standard) pentru variabilele observate si pentru reziduuri in fig 1 3 1 (folosind date din tabelul 1 3 1 ) am considerat distributia celor 21 de orase in functie de valorile normalizate ale seriei de date estimate (OP) prin ecuatia de regresie (y*) si de reziduurile normalizate corespunzatoare (OR) Deoarece punctele din grafic se distribuie aproximativ intr-o banda (de la - 1,25 la + 1,25) care insoteste perpendiculara ridicata din punctul zero al axei OR rezulta ca relatia dintre x si у este liniara Daca distributia respectiva ar fi sugerat un anume tip de curba (in forma de U, J, S etc ), atunci ar fi existat motive pentru a pune la indoiala ipoteza liniaritatii valori de predictie ale natalitatii J J Distributia oraselor mari in functie de natalitatea de predictie si de valorile reziduale (ambele variabile sint normate cu scorul z) Regula generala este deci, ca daca norul de puncte circumscris de axele corespunzatoare valorilor reziduale si estimarilor normalizate are o distributie ordonata conform unei curbe oarecare (diferita de linia dreapta, paralela cu abscisa, ridicata din punctul O al ordonatei), atunci relatia dintre x si у poate fi suspectata de neliniaritate Situatia poate fi semnificativa si pentru nesatisfacerea postulatului dispersiilor egale ale lui y, pentru valori date ale lui x in acest caz se recomanda adoptarea unui modei de regresie neliniar sau transformarea variabilelor initiale (prin logaritm are sau alt procedeu) Daca distributia este repartizata de-a lungul unei benzi paralele cu axa OR, situate aproximativ in zona (- 1) - ( + 1) a axei OR atunci relatia este liniara * Coordonata OP din fig 1 3 1 poate ii inlocuita cu valorile normalizate ale oricarei variabile independente (diferita dc x) pe care am dori sa o includem in modelul de regresie multipla Daca distributia reziduurilor este corelata in mod sistematic cu variatia unei alte variabile independente, neincluse in modelul de regresie, atunci exista de asemenea motive pentru a pune la indoiala respectarea postulatelor de liniaritate, egalitate a dispersiilor si specificare corecta in cazul respectiv Pentru exemplul la care ne-am referit, postulatul egalitatii dispersiilor (omosce-dasi ici late) poate fi inteles ca cerinta de a avea dispersii relativ egale ale ratelor de natalitate pentru diferite valori sau intervale date ale migratici Atit pentru orasele cu nivel redus al imigrarii (sub 13%o), cit si pentru cele cu nivel apropiat de medie (14%o-16%o) sau cu imigrare puternica (peste 17%o) ar trebui, deci, sa se inregistreze valori apropiate ale dispersiei natalitatii (calculate in interiorul fiecareia din gruparile respective) Daca acestea difera puternic intre ele atunci exista motive pentru a presupune ca din modelul de regresie au fost omise variabile importante pentru explicarea variabilei dependente (eroare de "specificare11)- Pentru a estima gradul de respectare a postulatului dispersiilor egale, poate fi folosit un grafic dc tipul celui din figura 1 3 1 Daca imprasticrea reziduurilor creste sau se reduce odata cu cresterea valorilor pe variabila estimata atunci exista motive pentru a considera ca nerespectat postulatul egalitatii dispersiilor conditionate in figura 1 3 1 imprasticrea reziduurilor pare sa scada odata cu cresterea valorii prcdictive a natalitatii Astfel spus, cresterea pe axa valorilor estimate (OP) pare sa Ле insotita dc o reducere a imprasticrii valorii reziduurilor Conform acestei asteptari, dispersia valorilor reziduale corespunzatoare unor valori negative ale lui y' normalizat 28 ar trebui sa fie mai mare decit dispersia corespunzatoare pentru (y' normalizat > 0) Cele doua grupe pentru care se calculeaza dispersiile sint deci: GRUPA A: orase cu valoarea asteptat! a natali ti (ii mai mic! decit media GRUPA B: orase cu valoarea asteptata a natalitatii mai mare decit media ORAs valoare reziduala normata cu scorul z ORAs valoare reziduali normat! cu scorul z ARAD -1 02350 BACaU 035684   BRAsOV -0,74653 BAiA MARE 0,73706 BRaiLA 0,27502 BOTOsANi 0 81697 CONSTANtA -0,41948 BUZaU 0,46569 CRAiOVA 0,55558 RE?TA -1,05388 TiMisOARA -1 10010 CLUJ -1,14744 GALAti 128712 ORADEA -0,72185 iAsi 2 49001 P -NEAMt -1,22468 PLOiEsTi 0,74555 SATU MARE -0,12961 PiTEsTi 0 15016 SiBiU -0,91006 > • J TG MUREs 039744 1 1 Pentru grupa A dispersia este 1,14 iar pentru grupa В 0,74 ierarhia dintre cele doua valori este concordanta, deci, cu asteptarea rezultata din imaginea vizuala data de figura 1 3 1 Cresterea valorilor normate ale lui y' tinde sa fie insotita de reducerea dispersiei valorilor reziduale Aceasta inegalitate a dispersiilor sugereaza existenta altor factori, diferiti de migratic, cu o influenta asupra natalitatii Pentru testarea caracterului normal al distributiei unitatilor analizate in functie de cele doua variabile (distributie bidimensionala) pot fi folosite atit instrumente grafice cit si algoritmi de calcul Distributia punctelor reprezentand unitatile analizate (in aria delimitata de axele corespunzatoare variabilelor x si y) este ea insasi semnificativa pentru natura distributiei O astfel de diagrama de imprasliere este prezentata in fig 1 2 1 Daca punctele din diagrama de imprastiere se separa clar in subgupe sau daca sint mai multe puncte "ratacite** de norul compact de puncte, atunci este de pus la indoiala ipoteza caracterului normal al distributiei bidimensionale Normalizarea cu testul z (formula 1 2 14) a variabilelor x si у, a valorilor estimate cu ajutorul ecuatiei de regresie si a seriei de valori reziduale este o alta cale care permite identificarea situatiilor de abatere de ia normalitatc Daca in oricare dintre aceste variabile normalizate apar valori mai mici de (- 3,16) sau rriai mari de (+ 3,16), atunci sau intreaga distributie poate fi suspectata de abatere de la normali Late sau numai cazanie respective ("aberante**) Daca astfel de valori aberante se inregistreaza 29 pentru variabilele puse in relatie si au acelasi sens de abatere fata de media seriei respective, atunci coeficientul de corelatie este supraestimat Eliminarea unitatilor cu valori aberante fie pentru variabila dependenta fie pentru cea independenta, duce in astfel de cazuri (cind abaterile respective au acelasi sens fata de mediile corespunzatoare) la reducerea marimii coeficientului de corelatie Pentru exemplul dat cifrele din tabelul 1 3 1 nu indica prezenta unor valori aberante in scop i! tstrativ sa eliminam din seria de date valorile corespunzatoare pentru orasul Botosani la nivelul caruia se inregistreaza atit imigrarea cit si natalitatea de nivel maxim Recalculind coeficientul de corelatie pentru seria ramasa de 20 de orase, se obtine o valoare a sa de r = 0,77 (fata de valoarea r = 0,87 corespunzatoare pentru intreaga seric a celor 21 de orase) Coeficientul de corelatie este recomandabil sa fie calculat atit cu seria de date "completa", inclUzind eventualele valori aberante sau extreme, cit fi fara unitatile carora le corespund astfel de valori Comparatia dintre cele doua tipuri de calcule poate fi utila pentru generarea unor ipoteze precum si pentru determinarea unitatilor cu contributie maxima la valoarea corelatiei   J Daca analiza se face nu pentru un esantion ci pentru o intreaga "populatie" (in sens de totalitate a unitatilor care poseda o anume caracteristica) si daca abaterile valorilor extreme nu sint foarte mari, atunci este de preferat folosirea cu prioritate a coeficientului de corelatie calculat inclusiv cu valorile aberante Un efect de marire a coeficientului de corelatie se obtine prin excluderea din analiza a unitatilor pentru care se inregistreaza valori reziduale extreme sau aberante Seria normalizata a respectivelor valori, prezentata in tabelul 1 3 1 nu indica existenta unor abateri mai man de ± 3,16 Pentru ilustrarea principiului mentionat, excludem din serie valorile pentru orasele iasi, Galati si Piatra Neamt in aceste cazuri, diferentele dintre valorile observate si cele estimate ale natalitatii sint maxime: 3 91 pentru iasi, 2,02 pentru Galati si - 1,92 pentru Piatra Neamt in primele doua cazuri, deci, natalitatea este subestimata prin ecuatia de regresie (valorile observate sint mai mari decit cele calculate) Pentru Piatra Neamt, natalitatea asteapta (18,22) in baza ecuatiei de regresie este mai mare decit cea observata (16,29) Prin eliminarea celor trei orase din scrie, se obtine o sporire considerabila a valorii coeficientului de corelatie: de la 0,87 la 0,95 Dat fiind relatia dc directa proportionalitate dintre coeficientul de corelatie si ccl de regresie (vezi formula 1 2 17), este de asteptat ca modificarile care duc la cresterea coeficientului de corelatie sa fie insotite dc cresterea celui de regresie Valoarea coeficientului dc regresie este dependenta insa si de raportul dintre abaterile standard (sД) in consecinta, modificarile produse in valoarea coeficientului dc corelatie prin excluderea din calcul a unor unitati de analiza influenteaza marimea coeficientului de regresie in asociere cu modificarile care se produc in raporturi sy sj 30 1 Atit coeficientul de ccrclape Bravais-Pearaon cil si cel de regresie sint calculati pe baza ipotezei ci variabilele analizate cu ajutorul lor sint masurate metric, adica pc э scala cu intervale egale sau pe o scala de raporturi (ca intervale egale si punct zerc absolut) in practica insa, modelele de corelape ti de regresie se aplica si la variatei , masurate ordinat Scalele ordinale indica ninnai raportul de ordine intre perechi de valori, intervalele intre valorile de scala sint inegale Folosirea unor modele de asaliza a dalelor concepute penau date masurate metric dar aplicate la valorile masurate ordinal pune o serie de probleme (asociate cu influicnta erorilor de masurare asupra estimarilor) in situatiile in care nu dispunem decit de masuri ordinale ale variabilelor, aplicarea metodelor de registre si de corelatie este indicat sa fie facuta mai mult in scopuri exploratorii, pentru generarea unor ipoteze decit pentru confirmarea unor modele teoretice (Wilson, 1971) Transformarea variabilelor ordinale in variabile dihotomice ale caror valori sa fie notate cu 0 si 1 (asa numitele "variabile fictive** - dummy variabiles) constituie o modalitate recomandabila pentru astfel de cazuri Pornind de la fiecare din valorile variabilei ordinale se poate crea o noua variabi-litate fictiva Astfel de variabile pot fi utilizate insa numai ca predictori in ecuatiile de regresie Variabila dependenta din model trebuie sa fie in toate cazurile politomica (sa aiba mai mult de doua valori) Asupra detaliilor de folosire a variabilelor fictive in analiza, vom reveni in ultima parte a acestui capitol Folosirea variabilelor ordinale in locul celor masurate metric este numai un tip de eroare de masurare Exista si alte tipuri dc erori sistematice sau abateri legate de modul de masurare a variabilelor Toate acestea pot contribui la sub-sau supraestimarea valorii coeficientilor de regresie sau de corelatie si la reducerea stabilitatii lor in raport cu esantionul pentru care sint calculati 1 3 2 Semnificatia coeficientilor de regresie si de corelatie Daca postulatele sau premisele anterior mentionate sint respectate, atunci se pune problema de a afla daca valorile coeficientilor calculati sint semnificative Ce inseamna ca o corelatie este semnificativa? Sau, mai exact spus, pentru ce este semnificativa? intrebari de aceeasi natura se pun si in legatura cu regresia in foarte multe cazuri, analizele de regresie si dc corelatie se fac pc esantioane nu pe intreaga populatie de referinta in aceste conditii, se pune problema de a afla daca valorile calculate prin cele doua moduri aproximeaza bine valorile corespunzatoare ale populatiei de baza din care provine esantionul Prin testele de semnificatie se estimeaza, cu o anumita probabilitate de eroare, a) daca valorile coeficientilor de corelatie si de regresie difera de zero in populatia de baza si b) marimea intervalului in care pot fi situate valorile calculate prin cele doua metode-coeficient de corelatie, coeficient de regresie termenul liber al ecuatiei de regresie si valorile seriei de date estimate cu ajutorul ecuatiei de regresie V, Semnificatia coeficientului de regresie (b) Coeficientul de regresie la nivelul populatiei de baza poate fi egal cu zero sau diferit de zero in primul caz cele doua variabile sint independente in sensul ca ele nu variaza siste-matic impreuna in cel de-al doilea, caz se cheama ca ele au o variatie dependenta - pentru o anumita valoare a variabilei independente exista o anumita distributie a valorilor variabilei dependente, cu o medie specifica a acesteia din urma (media lui Y este conditionala de X) ipoteza relatiei de independenta este desemnata in statistica sub numele de ipoteza de nul Complementara ei este ipoteza alternativa Daca ipoteza de nul se dovedeste a fi falsa, atunci cu o probabilitate de eroare data se accepta ipoteza alternativa Cea mai intuitiva modalitate de testare a semnificatiei lui b este data de lestul: ’F" W-У? ЕСу-уЭ3 * ’ -ил n-2 Cei doi termeni ai raportului anterior ne sint cunoscuti Numaratorul este variatia explicata iar numitorul, variatia neexplicata impartita la numarul de unitati analizate minus 2 in ipoteza de nul a unei relatii de independenta intre x si y, pentru un volum dat al esantionului, raportul F are valori care sint calculate deja in anexa 2 este prezentat tabelul cu seria de valori ale lui F pentru probabilitatea de eroare de 5% F calculat conform formulei 13 1 se compara cu valoarea tabelara corespunzatoare Daca F calculat > F teoretic (din anexa 2), atunci b este semnificativ Pentru exemplu "migratie - natalitate** la care ne-am referit: 145 61 F = WSH9-58'88 Valoarea teoretica a lui F valabila in cazul validitatii ipotezei de nul este in anexa 2 in cazul testului F, folosit pentru a determina semnificatia coeficientului de regresie, valoarea cautata'se afla la intersectia dintre coloana 1 a tabelului si linia corespunzatoare lui (n-2) Deoarece n= 21, rezulta ca F teoretic = 4,38 (la intersectia dintre coloana l(Vj = 1) si linia corespunzatoare lui v2 = 19) Rezulta ca relatia dintre migratie si naialimte este semnificativa cu o probabilitate de eroare de 5% deoarece F calculat > F teoretic Reamintim ca aceasta interpretare este valida in ipoteza in care cele 21 de orase analizate ar fi considerate ca esantion din totalul oraselor tarii si am acceptat acesta ipoteza numai in scopuri ilustrative dictate de contextul acestei lucrari Pentru o analiza neilustrativa asupra aceluiasi grup de orase, problema calcularii valorii iestului F nu se pune deoarece ele insele formeaza o populatie - populatia oraselor mari, cu peste 100 de mii de locuitori 32 * О а doua modalitate de testare a semnificatiei coeficientului b este bazau pe calcularea erorii standard a coeficientului de regresie (ES): t(y-yV , (a-2)- (i-i)* L3-2 Pentru exemplul dat ES = 46 98 19 * 847,66 = 0j054 Eroarea standard este o masura a gradului de variatie a coeficientului de regresie in ipoteza ca el s-ar calcula pentru un numar foarte mare de esantioane de volum n extrase din aceasta populatie de baza Pe baza erorii standard se determina: b 1= — 1 3 3 Ca si pentru testul F, exista o valoare teoretica a lui t prezentata in anexa 2 (se considera testul unilateral) Daca valoarea calculata a lui t este mai mare decit cea teoretica, atunci ipotexa de nul se respinge si se accepta ipoteza alternativa a existentei unui coeficient b > o in populatia de baza in exemplul dat, t = 0,41 0 054 - 7,59 Citirea valorii teoretice corespunzatoare probabilitatii de eroare de 5% se face in anexa 2 la interseepa dintre coloana 0,05 si linia 19 (valoarea data de diferenta n-2 denumita "numarul gradelor de libertate ") in acest caz, t teoretic = 1,729 Valoarea tabelara fiind mai mica decit cea calculata rezulta ca relatia dintre cele doua variabile masurata cu b este semnificativ mai mare decit zero Se respinge, deci, ipoteza de nul si se accepta alternativa ei in functie de clementele de calcul disponibile se poate calcula fie F fie t Daca tabelul cu valori teoretice de care dispunem este altul decit cel pentru care am calculat valoarea testului de semnificatie, atunci se poate utiliza relatia de transformare F=t2 Pentru exemplul ales, valoarea aflata a lui t fiind 7,59, rezulta F= 7 S92 =57 6 in anumite situatii dorim sa stim nu numai daca b>0 in populatia de baza ci si daca valoarea aflata a lui b este semnificativ mai mare decit o alta valoare considerata ca etalon (t>3- Testarea semnificatiei diferentei dintre b si b' se face cu o formula putin modificata fata de 1 3 3: b-b' ES 1 3 4 Daca valoarea calculata a lui t este mai mare decit cea teoretica (din anexa 2), atunci diferenta dintre b si b' este semnificativa Citirea valorilor lui t in tabel se face pentru valoarea n-2 33 Semnificatia coeficientului de corelatie (r) Ca si in cazul regresiei, pentru a ic&u ipoteza de nul r=o in populatie, poate fi folosita distributia L in acest scop se calculeaza: i 1 n-2 Valoarea rezultata a lui i se compara cu cea din tabelul distributiei t corespunzatoare liniei (n=2) Daca t calculat > t teoretic, atunci se respinge ipoteza de nul si se accepta alternativa ei r*0 in exemplul pe care in folosim in acestcapitol,   = M7 -0 872 0,113 У 21-2 Pentru n-2, si p = 0,05 valoarea lui t din tabelul anexei 2 este egala cu 1,729, Deoarece t calculat > t teoretic, rezulta ca r este semnificativ mai mare decit 0 O modalitate si mai simpla (derivata din formula 1 3-5 ) de a afla daca un anumit coeficient de corelatie este semnificativ este cea dc calculare a lui ,j critic" Daci r observat > r critic, atunci corelatia este semnificativ difera de 0 r critic = -1— - 1-3 6 Nn-2 +t2 Pentru esantioane mai mari dc 120, t = 1,96 la probabilitatea dc eroare dc 5% Deci, in acest caz, r critic = 1,96  >  n -2 + 1,962 in analizele in care sint folositi coeficienti de corelatie este util sa fie inclusa si valoarea lui г critic pentru probabilitatea p = 0,05 in asa fel ineit cititorul sa poata raporta r observat la pragul critic Daca г observat > i critic, rezulta ca r observat t o in populatia de baza, cu o probabilitate de eroare de 5% Daca r observat > r critic, rezulta ca sau corelatia este dc nivel nesemnificativ in populatia de baza, sau ca legatura dintre cele doua variabile este de forma neliniara in acest ultim caz, analiza diagramei de imprasliere (distributia unitatilor analizate in functie dc doua axe rectangulare X si Y) poate sugera lipul de relatie neliniara dintre cele doulj variabile 1 33 intervale de incredere Cu ajutorul testelor de semnificatie mentionate anteror se afla daca valoare; (absoluta a) coeficientilor de regresie si de corelatie este semnificativ diferit zero, ifl populatia de baza Daca raspunsul la aceasta problema este afirmativ (daca se respingej deci, ipoteza de nul) atunci arc sens sa ne intrebam in ce interval este probabil ca se situeaza valorile respectivilor coeficienti in populatia de baza Coeficientul de regresi 34 calculai pentru un anume esantion aproximeaza valoarea coeficientului de regresie valabil pentru populatia din care provine respectivul esantion Cu cit eroarea standard a ІШ b (vezi 1 3 2 ) este mai mare, cu atit intervalul de incredere este mai larg Daca notam cu b coeficientul de regresie in populatie, atunci, valoarea sa se inscrie" cu o probabilitate data, in intezyaluh b-t-ESi b^b + fES L3-7 Determinarea lui t se face cu ajutorul tabelului de valori corespunzatoare acestei distributii (anexa 2) pentru (n-2), testul bilateral in regresia natalitatii asupra migratiei, elementele de calcul pentru intervalul de incredere sint: n = 21 b = 0,41 t = 2 093 pentru p - 0,05 ES = 0,05 in functie de aceste date 0,41-2,093 - 0,05 SbS0 41 + 2,093 • 0,05 0,30SbS 0,51 *Desi mai rar, in practica de cercetare exista totusi siludpi in care se impune calcularea intervalului de incredere pentru termenul liber al regresiei (a) sau pentru fiecare din valorile estimate y' Daca notam cu a valoarea termenului liber al regresiei in populafia din care este selectat esantionul, alunei intervalul de incredere in care se inscrie acest termen este: a-t (VN" n-2 ѴпЕ(х-хУ^* a* VN n-2 i t? nE(x-x)2 1 3 8 unde: a - termenul liber al regresiei VN - variatia neexplicata (vezi 1 2 10) t - valoarea data in anexa 2 testul unilateral, pentru n-2 grade de libertate T-media variabilei independente x - seria de valori ale variabilei i Din dalele exemplului de calcul rezulta: * 7,93 S a s 11,37 in special in situatiile in care ecuafia de regresie este folosita pentru prediepe este utila calcularea intervalului de incredere in care se inscrie oricare din valorile estimate in baza ecuapei respective Notind cu (y‘) limitele intervalului de incredere pentru valorile estimate, formula de calcul este: (y3=y*±t- (x -ХУ i(x-x)1 l 3 9 35 Valoarea estimata a natalitatii intr-un oras cu raia imigrarii de 13,79 (= valoarea medie a variabilei x din exemplul de calcul) este, conform ecuatiei de regresie: y'-9 64+ 0,41   13,79= 15,29 Pe baia calculelor cu formula (13 9 ) rezulta ca intervalul de incredere al acestei valori este cuprins intre 14,63 fi 16 10 Deci, cu o probabilitate de eroare de 5% se poate sustine ca rata natalitatii pentru un oras mare avind imigrarea de 13,79%o, se inscrie in intervalul 14,63%"- 16J0%o 1 4 SEMNiACAt1E STATiSTiCa, SEMNiFiCAtiE DE CONtiNUT sl PREDiCt1E APLiCAtiE LA RELAtiA DiNTRE MaRiMEA LOCUiNtEi sl DENSiTATEA DE LOCUiRE • Daca un coeficient de regresie este semnificativ sub aspect statistic, nu rezulta automat ca efectul simbolizat de respectivul coeficient este semnificativ si din punct de vedere teoretic sau practic Semnificatia statistica a coeficientului b din ecuatia de regresie nu indica altceva decit faptul ca, in populatia de baza, acesta este diferit de zero Altfel spus, cu o probabilitate de eroare aleasa, se poate aprecia ca cele doua vanabile puse in relatie nu sint independente Cit de mare trebuie sa fie un anume efect pentru ca el sa fie semnificativ din punct de vedere practic sau teoretic este o alta problema La aceasta nu se raspunde prin testele de semnificatie prezentate anterior Judecati de valoare intemeiate pe experienta sau pe teorie stau la baza determinarii pragului dincolo de care b este semnificativ sub aspectul continutului Pentru ilustrare sa consideram relatia dintre marimea locuintei si densitatea de locuire Premise teoretice Densitatea de locuire in locuintele dintr-un teritoriu dat poate fi masurat prin mai multi indicatori: numar de persoane pe camera, suprafata locuibila pe persoana, numar dc gospodarii la o locuinta, pondere dc locuinte in care numarul, persoanelor este mai mare decit cel al camerelor etc in exemplul de analiza pe care il| folosim in continuare ne vom referi la primul dintre indicatorii mentionati - numanilj de persoane pe camera Densitatea de locuire este, evident, cu atit mai mare cu cit indicele respective aret valori mai ridicate Factorii care influenteaza nemijlocit densitatea medie dc| locuire dintr-un teritoriu dat, masurata prin indicele persoane pe camera dc locuit sind numarul total de camere (C) si numarul total dc persoane (P) La rihdui sau, numarul de camere este cu atit mai mare cu cit in teritoriul de referinta exista mai multe locuinte (L) care au o dimensiune mai marc sub aspectul numarului de camere pq locuinta (C L) Numarul de persoane este influentat direct si pozitiv de numarul total dc gospodarii (G) si de marimea medie a gospodariei estimata prin numarul mediu de persoane pe gospodarie i 36 *  G * Densitatea de locuire este, deci, functie de numarul de locuinte si de gospodarii pe de o parte, si de marimea medie a locuintelor si gospodariilor pe de alta parte Doi dintre cei patru factori sint asociati negativ cu densitatea: cu cit numarul de locuinte este mai mare si cu cit dimensiunea lor medie este mai mare ridicata, cu atit densitatea de locuire este mai redusa in seria relatiilor de sens direct, pozitiv, se inscriu factorii G - numarul de gaspodarii si P G - persoane pe gospodarie Cu cit rastea au valori mai ridicate, cu atit densitatea de locuire este mai mare Acesta este un model teoretic cu mai multe variabile (multivariat) pe care il vom testa prin analiza dc regresie multipla Deocamdata pentru ilustrarea problemelor de interpretare pe care le pune regresia simpla vom accepta ipoteza unei structuri cauzale unifacioriale: densitatea de locuire sub aspectul numarului de persoane pe camera este determinata in mod semnificativ de marimea medie a locuintei (C L) Daie de intrare Atit densitatea cil si marimea medie a locuintei sint estimate folosind date pentru 39 judete (total orase din cadrul lor) si pentru municipiul Bucuresti (anul 1977) Modelul statistic al relatiei Aplicind procedeele de analiza de regresie asupra relatiei dintre cele doua variabile a rezultau P C = 2 85-0,61-(C L) Modificarea dimensiunii medii a locuintei cu o camera in sensul sporirii acestei dimensiuni este insotita, deci, in medie, de o reducere a densitatii de locuire cu 0,61 persoane camera Relatia respectiva a fost valabila la mijlocul anilor '70 pentru mediul urban al judetelor din tara noastra Cele 40 dc unitati teritoriale ar putea fi considerate, prin conventie, ca esantion in consecinta, ar avea sens sa vorbim de intervalul de incredere pentru cei doi parametrii ai ecuatiei de regresie Cu o probabilitate dc eroare de 5% intervalele respective sinu -0,72 S b  -0,49 2 61  a  3 10 intervalul de incredere pentru b nu include deci si valoarea zero in consecinta, se poate considera ca, din punct de vedere statistic, regresia densitatii de locuire asupra marimii medii a locuintei este semnificativa in acelasi sens pledeaza si valoarea calculata a testului F = 114,70 Pentru 1 si n - 2 = 40 - 2 = 38 grade de libertate, F = 4,08 Deoarece F > F, rezulta ca b este semnificativ diferit de zero С г Corelatia uintre densitatea si marimea locuintei fiind r = - 0 87, coeficientul de deier mi паре corespunzator r = 0,75 Se poate afirma, deci, ca 75% din variatia interjudeteana a densitatii de locuire urbana este de pus pe seama variatiei marimii medii a locuintelor, O imbunatatire a modelului de predictie este posibila prin eliminarea cazului in care diferenta dintre valoarea observata si cea estimata cu ajutorul ecuatiei de regresie este maxima Situatia respectiva se inregistreaza in legatura cu orasul Bucuresti La nivelul acestuia marimea medie a locuintei era x = 2,28 camere locuinta iar densitatea de locuire у = 1,24 persoane pe camera in baza ecuatiei de regresie, valoarea estimativa a densitatii este: y' = 2,85 - 0,61 -2,28=1,46 Valoarea reziduala absoluta este dala de diferenta у - y' = 1,24 - 1,46 = -0,22 Seria de diferente reziduale petru*toate cele 40 de unitati analizate are media zero si abaterea standardului egala cu 0,80 Rezulta ca valoarea reziduala normalizata pentru Bucuresti este (conform formulei 1 2 14): Z = -0,22-0 0,08 = -2 75 (Daca toata seria anterioara de calcule, incepind de la determinarea iui b si termi-nind cu cca a lui z, se face pe baza unui program de calcul, operind cu 8 zecimale, atunci se ajunge la o valoare a lui z = - 3,04 Diferenta fata de - 2,75 este rezultanta a efectelor dc rotunjire in cazul in care, pentru ilustrare, am lucrat numai cu 2 zecimale) Diferenta dintre valoarea observata a densitatii si cea estimata fiind maxima, in cazul orasului Bucuresti, este justificata excluderea ei din seria de date Recalculind fara acest oras, se obtin urmatoarele valori: b = -060 r = -0,89 a = 2 84 r = 0 79 in cele doua variante dc calcul, coeficientul dc regresie ramine practic egal Puterea explicativa a modelului creste foarte putin, de ia 75% in prima varianta la 79% in cca dc-a doua Pornind dc la valorile estimate ale densitatii si dc la seria valorilor reziduale, pot fi formulate aprecieri in legatura cu gradul de satisfacere a unora din postulatele regresiei Pentru a estima in ce masuta postulatele mentionate ale liniaritatii si egalitatii variantclor sint respectate in cazul acestui model de regresie, in fig 1 4 1 este reprezentata grafic relatia dintre valorile estimate ale densitatii de locuire pentru fiecare jucct (axa OP) si diferentele (sau reziduurile" dintre densitatea reala si cea estimata cu ajutorul ecuatiei de regresie Daca postulatul liniaritatii nu ar fi respectat, atunci punctele ar fi distribuite ncaleatoriu, conform unui model identificabil Cum norul de puncte nu este organizat conform unui anume model ci lasa mai mult impresia unei distributii aleatorii, rezulta ca postulatul liniaritatii este respectat in relatia dintre cele doua variabile >8 " O pozitie izolata (aberanta) o ere punctul corespunzator ВосяфМа^ acestuia din seria de daae ее justifica, d^ fi dtapaqmcttva acestei dfagnm Postulatul egalitatii dispersiilor pare sa fie violat Ba cazai aoesua regresie pentru ca tarorastierea rezidiuurilar pare sa creasca odei cu crepc estimate a densitatii ia graful din fig 1 4 1 re observi astfel capcaun vuia apropiate de (-2) reziduurile an valori apropiate Be masura cresterii tai у'insa, reziduurile tind sa fie tot mai dispenaae Conform regulilor mentionate, acosta situatie sugereaza ca denataaea este influentati fi de al# factori decft marimea medie a locuintei Semat fagia de сол шш Relatia dintre cresterea marimii medii aj densitatea de locuire este semnificativa sub aspect statistic Natura acestei data de coeficientul de regresie: cresterea marimii medii a locuintei cu o c Fig 1 4 1 Distributia judetelor (desemnau prin codurile ier) in functie de densitatea estimaiK prin ecuatia de regresie (axa OP) si reziduurile dintre valorile reale si cele es densitatii de locuire (axa OR) Ambele variabile sim normalizate cu scorul: Din punct de vedere poetic, insa, acesti informatie nu spune foarte mult (cresterea dimensiunii medii a locuintelor cu o camera, fie la nivel national, fie fo cadrul unui judet, nu se poate realiza decit pe tennen lung, cu un efort consttuctiy considerabil) Structura fondului locativ existent se modifici relativ lent'Acelasilucru este valabil si in legatura cu densitatea de locuire Cel care urmareste reducerea densitatii de locuire prin cresterea marimii medii a locuintei ar putea sa considere ca, spre exemplu, efortul respectiv ar merita sa fie facut daca la o crestere de o camera a locuintei medii s-ar obtine o reducere a densitatii de cel putin 0,80 persoane pe camera Ог сшп valoarea acestei reduceri este'de 0,49 pinala cel mult 0,72 penoane camerl (acestea fiind limitele intervalului de incredere pentru b), el poate considera efectul estimat prin b ca fiind nesemnificativ dii> punct de vedere practic in calculele de prognoza, ecuatia de regresie poate fi folosita si pentru a raspunde la intrebari de tipul иве valoare trebuie sa aiba x pentru a obtine efectul y, in ipoteza ca relatia dintre x si у se mentine?* •• > • л • -V        Ce marime trebuie  1 aiba ioctrinta medie iotr-inr grup de judete pentru ca media -  Asnsiiatu de locuire la nivelul lor sa fie de nivelul у' Pentru exemplificare, sa consideram judetele a caror locuinta medie era de 2 camere pe locuinta (ecuatia de regresie fara Bucuresti): marimea medie a locuin|ei penoine pe camere Alba 139 1 68 Arad 2 05 154 Bihor 2,00 158 Bisui|a-Nlsaud 2 00 1,76 Caras-Severin 2,04 159 Cluj 2 01 1 64 Hunedoara 2 04 156 Mures 1 98 1,66 Sibiu 2,01 1,72 Timis 2,03 150 medie 2 01S 1 623 Valoarea de 1,623 este media conditionata a densitatii pentru locuintele cu marimea medic de 2 camere O valoare foarte apropiata poate fi determinata cu ajutorul ecuctiei de regresie Pentru x = 2 015 y* = 234 - 0,60 * 2,015 = 1,63 Din formula ecuatiei de regresie rezulta x =  a Corespunzator, se poate estima ca pentru ca media conditionata y* sa aiba nivelul 132, spre exemplu, valoarea data a lui x ar trebui sa fie: * 152-234 -0,60 40 1 Deci, pentro ca in grupul celor 10 judet* sa fie atinsa o deasitstoM0 1Д2 persoane pe camera, ta medie, ar trebui ca fiecare din de ril мН de 2Д camere pe locuinta Reducerea densitati de locuire de la o medie de 1;62 la 1J2 pe асам medii а locuintelor, ar implica schimbarea structurii fondului locativ astfel tad medie in fiecare din judetele respective sa ajung* de 2Л camere locontl tati- Desigur, cresterea marimii medii a locuintei intr-un judet an rfoce ai reducerea deasitltii de locuire AceastA reducere ae realizeaza numaitend medie la nivelul unui grup de judete care realizeaza o crestere similaria locativ pornind de la aceeasi situatie Toate cete 10 judete care aveau locuinta medie din orase apropiata de " stat situate ta arcul intracarpatic Acest fapt sugereaza ipoteza unei diferende turti fondului locativ si ta functie de regiunea istorica, tu exemplificarile ta date pentru regresia multipla va fi luat ta consideratie si un alt indicator al de locuire-suprafatalocuibila pe persoana ipoteza rolului regiunii istoriceta dil fondului locativ si a densitatii de locuire va fi reluata cu aceasta ocazie Daca admitem ipoteza ca relatiile au o mai mare stabilitate ta timp dec tete pe care te leaga, atunci ecuatia de regresie determinata pentru un moment folosita pentru predictie si in momentul (t   n) Cu cit cele doua momente t am mai apropiate, cu arii este mai probabil ca ipoteza respectivi sa fie mai a adevar Daca exista motive pentru a suspecta schimbarea naturii relatiei 'awhc de regresie trebuie sa fie adaptat fiecarei secvente temporale "- : 2 REGRESiA MULTiPLa 2 1 PREZENTARE GENERALA Cel mai adesea, variabilele pe care dorim sa le explicam sau estin determinare multipla Cazurile ta care comportamentul unei variabile dependt fi explicai sau prognozat numai in functie de o singurii variabila indepem destul de rare Pentru adaptarea modelelor de regresie simpla ta locul celoi sint responsabile mai mult lipsa datelor necesare, sau dificultatile de cal natura structurilor cauzale obiective Atunci cind variabila dependenta este determinati de mai miilt*-jndependepte si cind sint disponibile datele necesare, adoptarea modelelor id multipla se impune ca solutie optima in esenta, modelele de regresie multipla si cele derivate din acestea (cu c standardizati, cu coeficienti de elasticitate sau de determinare partiala indeplini urmatoarele|functiunht a) exprimarea sintetica a relatiei de dependenta dintre variabile Aci funefia de sinteza sau de seducere a datelor*; b) estimarea valorilor asteptate ale unei variabile dependente in functie de un set de variabile independente -fiinctia de predictie:   c) estimarea importantei relative a unor variabile independente pentru aceeasi variabili dependenta - functia de estimare a importantei: d) estimare agraduhu de adecvare a unui modei teoretic (ivind ca elemente variabile si relatii dintre ele) la un set de date empirice-functia de testare a modetefor teoretice Primele doua functii sint specifice regresiei obisnuite, bazata pe metoda celor mai mici patrate Cea de-a treia functie implica folosirea comparativa a coeficientilor de regresie standardizata si nestandardizata, a coeficientilor de elasticitate si de determinatie partiala Pentru testarea modelelor teoretice, de maxima utilitate sint modele de tip path si cele cu ecuatii structurale (derivate din modelul regresiei obisnuite) Modelul teoretic stabileste relatiile ipotetice dintre concepte sau variabile sau clase de variabile La rihdul lor, acestea pot fi observabile sau latente, neobservabile, in construirea modelelor teoretice, accentul cade pe specificarea calitativa a continutului termenilor luati in consideratie si a relatiilor dintre acestia * in cazul modelului empiric, interesul major este consacrat ^determinarii indicatorilor pentru masurarea componentelor modelului teoretic, b) masurarii relatiilor dintre mdicatorii si c1) confruntarii configuratiei modelului teoretic cu structurile obiective ^ 7^" in Auste de ямІЬа Construirea unui bun model teoretic este premisa esentiala a realizarii unui model de regresie corect, adecvat datelor si cu putere de predictie ridicata Pentru o prima ilustrare a rezultatelor de calcul ale analizei de regresie multipla prezentam in continuare citeva exemple ^ЁхетрІиП:) Folosirea timpului pentru gatit si curatenie Penii U tui Acelasi context social, caracteristici ale familiei, ale statutului social si ale locuintei, influenteaza modul de utilizare a timpului in gospodarie Un indicator al acestuia este si numarul de ore alocate anual pentru gatit si curatenie O cercetare intreprinsa asupra unui esantion de 621 femei casnice in SUA, in familii de albi (Gronau 1977) retine 8 variabile independente pentru predictia timpului alocat acestor activitati Variabilele si coeficientii de regresie partiala (ca masuri ale schimbarii produse in variabila dependenta prin schimbarea cu o unitate pe variabila independenta X , in conditiile tinerii sub control a celorlalte variabile independente diferite de i, corespunzatori lor sint -— V 1 Virsta casnicei V 2 Educatia casnicei V 3 Educatia sotului V 4 Salariul sotului (in S pe ort) ' V 5 Venituri din alte sune decit profesia sotului V 6 Copii de 0-7 ani V 7 Copii la scoala V 8 Numar de camere pe locuinta -1,165 -53 4  22 668 4 -16,129 -0,044 327,654 -125,196 83,251 42 ' in ansamblu, cete opt variabite explica 26ЧЬ din variatia variabilei " Аудчйн* (R2=o^6) ’ -г?-1?? Consumul de timp pentro gatit si cmatenie este ai atit mai mare pentru casnice a cit aa inai mulp copii, locuinta este mai mare si sotul arc un nivel mai ridicat 5 - 44 de ani (R) procentul de analfabeti din populatia adulta Q) speranta de viata la nastere control a celorlalte vanabi 'independente (in modelele cauzale in care nu exista interactiune intre vanabil dependenta si cele independente, coeficientii beta sint echivalenti cu coeficienti i pa th ’ Dat ttind caracterul abstract al unitatilor cu care sint masurati (abateri standard coeficientii beta calculati pentru acelasi esantion sint mai comparabili intre ei dec coeficientii de regrggic nestandardizflti Abaterile standard avind o mare specificitate in functie de esantionul la nivel t caruia sint calculate, rezulta ca si coeficientii beta determinati cu ajutorul lor au o asifr de specificitate "locala* Coeficientii de regresie ne standardiza fi nu depind de laportl dintre abaterile standard si in consecinta au o mai mare autonomie in raport cu esantionu pe care sint calculati, in schimb sint mai dificil de comparat intre ei datorita unitatile de masurat foarte concrete in care sint exprimati O alta masura derivata din coeficientul de regresie este^ arricmneatCoeficienti de elasticitate indica cu cit la suta se modifica variabila dependenta in coffliBife modificari cu 1% a unei variabile independente in conditiile tinerii sub control a influente celorlalte variabile independente Coeficientii de elasticitate partiala ^)se obtin pnt inmultirea celor de regresie partiala cu ranortul dintre media variabilei independente s media variabilei dependente:   E x b "x 7y, unde j 2 2  unde b - coeficientul de regresie partiala al variabilei i, x( - media variabile independente x iar7 - media variabilei dependente Coeficienti de elasticitate sint considcrti ca adecvati pentru a face atit comparati in interiorul aceleiasi ecuatii de regresie (sau a aceluiasi esantion) cit si intre ccuati; (esantioane) diferite (Hanushek, Jackson, 1977) si aceasta pentru ca, pc de o pane sint exprimati in unitati de masura abstracte iar, pe de alta parte, nu sint dependenti direct de abaterile standard care au o mare specificitate locala, legata de esantionul pentru care sint calculate Desigur, exista si o specificitate a mediilor in functie dei esantion, in general se considera insa ca dependenta de esantion este mai mica pentru' medii decit pentru abateri standard ' Daca intre esantioanele comparate mediile au o mai mica variatie decit abaterile standard, atunci, putem considera coeficientii de elasticitate ca fiind masura cea mai comparabila bacii insa abaterile standard variaza mai putin decit mediile, atunci este indicata sa fie farutz comparatiile in termeni de coeficienti beta   Cu ajutoniljcoeficicn|ilor de regresie partiala te estimeazajmpoaan|ajcoretKa sau potcntialaaiinuL^redictor ^ntru o variabila dependenta ^аій | оеіісіепрП>еиГ exprima im^nantaunuiprcdictor^nt^^ispersia variabilei dependente sau 7n?l?5B8FunSi varTain^Ruprj imprastieni variabilei dependente intr-un esantion dat1' (Achen, 1982: 75) Din acest motiv coeficientii respectivi mai sint denumiti si coeficienti ai "importantei de dispersie** O alta modalitate de estimare a importantei unui predictor, derivata din coeficientii de regresie este cea a "coeficientilor importantei de nivel" (Achcn 1982: 71-73) Acestia exprima cit anume din media variabilei dependente este asociat cu media unei variabile independente in conditiile tinerii sub control a celorlalte variabile indenetwbn-tA importantei de nivel pentru o variabila x( este data de produsul dintre coeficientul de regresie partiala corespunzator ei si media pe care aceasta o are: " ' ’ - importanta de nivel a variabilei х, = bt 2 2 5 Cu cit coeficientul importanteLde nivel are o valoare absoluta mai mare, cu atit уагіаБПа "independenta careia ii este asociat este mai importanta in explicarea nivelului variabilei dependente Media variabilei dependente у poate fi exprimata astfel in functie de mediile a n variabile independente: у = a + bjXj + Цх, + + baxa 2 2 2 Estimarea importantei unei variabile independente in general, o variabila independenta este cu atit mai importanta pentru o variabila dependenta cu cit o anume cantitate de schimbare din prima este insotita de o mai mare cantitate de schimbare in cea de-a doua, in conditiile tinerii sub control a relnrlalte variabile independente Educatia, spre exemplu, este cu atit mai importanta pentru nivelul veniturilor cu cit cresterii cu o unitate data a nivelului de scolarizare (un an, o abatere standard pe scala scolarizarii, un procent pe aceeasi scala etc ) ti corespunde o crestere mai mare a nivelului veniturilor indicatorii statistici ai importantei, derivati din analiza de regresie, se diferentiaza in primul rind in functie de natura unitatilor in care sint masurate corespondentele sau transformarile de schimbare intre perechile de variabile Daca dorim ca transferul de schimbare sa fie estimat in unitatile de masura naturale** ale sursei si destinatiei schimbarii, atunci folosim coeficientii de regresie partiala nestandardizati (asa cum rezulta ei din analiza de regresie bazata pe metoda celor mai mici patrate) b Coeficientii de nivel exprima importanta unor variabile dependente in unitati de masura specifice acesteia din urma " Pentru a estima transferul de schimbare de la variabila independenta pot fi folosite si unitati conventionale precum abaterile standard (coeficientii beta) sau procentele (coeficientii de elasticitai^ si cei de determinape partiala, la care ne vom referi in 2 4 )  indicatorii statistici ai importantei difera insa nu numai din punct de vedere al unitatilor de masura in care sint exprimati ci si in legatura cu perspectiva de considerare a variabilei dependente Aceasta poate fi explicata sub aspectul nivelului ei mediu sau al variabilitatii ei Cercetatorul trebuie sa aiba clar in minte daca in situatia de cercetare data П intereseaza sa explice nivelul sau variabilitaica variabilei dependente sau ambele aspecte Explicatiile de nivel sint raspunsuri la intrebari de lipul "de ce infractiunile sint atit de frecvente in anumite situatii de locuire*', "de ce emigrarea este atit de puternica din anumite localitati**, "de ce contactele sociale sint atit de reduse in anumite vecinatati**, etc interesul pentru variabilitate este exprimat in 46 intrebari de tipul: "de ce numarul de camere de locuit difera mai mult intre judetele extracaxpatice decit intre cele intracarpatice14 (vezi tabelul 2^52 ), de ce marimea medie a gospodaria difera mai mult intre judetele din Transilvania - Banat - Crisana -Maramures, decit intre cele din Moldova (vezi tabel 253 ); "cil de mult din variatia intre localitati a procentului de locuinte "bolnave** (afectate de condens, mucegai etc ) se transmite asupra variatiei intre aceleasi localitati, a indicelui de morbiditate respiratorie la copii etc | Coeficientii de estimare a importantei pot fi ordonati in functie de relevanta lor, pe cele doua dimensiuni la care ne^am referit interesul pentru nivel, versus interesul pentru variabilitate si adoptarea unor unitati naturale, versus unitati conventionale in exprimarea corespondentei intre schimbarile dintre variabilele sursa (x) si dependenta (y): iMTAjl DE MaSURa i naturale conventionale 1 ale lui у ale lui x si у abateri standard procente 1 nivelul lui у coeficientul importantei ide nivel regresie partiali nestandardizala elasticitate 1 variabilitate thriy 1 beta determin afie O a treia dimensiune care trebuie avuta in vedere in alegerea coeficientilor pentru estimarea importantei este legata de interesul actual sau potential, pentru descrierea unei relatii intr-o situatie data sau pentru considerarea ei in perspectiva generala Cu cit valoarea unui coeficient este mat dependenta de parametrii specifici ai "Д esantionului pentru care se face analiza, cu atit respectivul coeficient esitemal tefevant v pentru descrierea situatiei actuale, locale Aceasta este de obicei particularitatea J c'oeticienpior beta (coeficienti de regresie standardizati) dependenti dc valorile abaterilor standard, precum si ai celor ai importantei dc nivel si a celor de determinatie Pentru estimarea relatiilor potentiale, teoretice, generale, este indicata folosirea coeficientilor de regresie nestandardizati- Estimarile bazate pe elasticitate ocupa o pozitie intermediara intre acestia, mediile pe baza carora sint calculati avind in general o specificitate locala mai redusa decit abaterile standard Rezulta, deci, ca cercetatorul trebuie sa aiba in vedere cel putin trei opozitii de baza atunci cind incearca estimarea importantei unor schimbari din variabilele sursa pentru schimbarile din variabila dependenta: - natural versus conventional in alegerea unitatii de masura care exprima corespondenta dintre schimbari; - interesul pentru nivel versus interesul pentru variabilitatea in explicarea variabilei dependente: - interesul pentru potential versus interesul pentru actual in caracterizarea relatiei dintre variabila independenta si cea dependenta 47 iluzia ca ar exista o singura masura statistica a importantei unui predictor, capabila sa lucreze dincolo de situatiile descrise in termenii acestor opozitii, tine de copilaria aplicarii statisticii in stiintele sociale Conceptul de importanta din analiza de regresie este bazat in buna masura pe ipoteza "ccteris panbus**, toate celelalte conditii fiind egale intr-un mode) de regresie multipla, coeficientul de regresie partiala b este determinat, in ipoteza ca toate celelate variabile independente diferite de x ar  i tinute sub control, ar avea pentru toate unitatile analizate valoarea lor medie si nu pe cea reala Pentru a masura influenta lui x, asupra lui у se face deci un gen de experiment mental prin care toate unitatile de analiza devin identice intre ele cu exceptia valorilor pe care le au in functie de variabila x O astfel de ipoteza este cu atit mai usor de acceptat cu cit x(esie mai putin cf corelata cu x Daca legatura dintre predictori este foarte puternica, atunci ipoteza respectiva este nerealista si rezultatele de calcul ajung sa aiba, in buna masura, caracter de artefact statistic ’ Din acest scun comentariu (pe care il vom relua cu ocazia analizei postulatului mulLicoliniaritatii) este de retinut deocamdata ideea importantei relative a variabilelor independente Coeficientii de regresie partiala sau cei derivati pornind de la acestia nu dau altceva decit o masura relativa a importantei, dependenta de intregul set de variabile independente folosit in model Aceeasi variabila independenta integrala in alt set dc variabile va avea un coeficient de regresie diferit Cu cit valoarea coeficientiului de regresie раліаіД este afectata mai putin de inlocuirea unora din partenerele ei de explicare a lui y, cu atit respectiva valoare este mai stabila, mai sigura importanta masurata prin analiza de regresie este una de ordin cantitativ: ce cantitate din schimbarea iui у poate fi considerata ca transformare a unei schimbari in x, sau ce cantitate de schimbare in у este asociata schimbarii cu o unitate in x Aceeasi schimbare din x poate fi evaluata insa si dintr-un alt punct de vedere Anume ea poate fi considerata in raport cu un intreg set de variabile dependente Din aceasta perspectiva criteriile dc estimare a importantei ei sint mai complexe: o variabila x* este cu atit mai importanta cu cit schimbarea ei cu o unitate induce schimbari de mai mare amplitudine in cit mai multe variabile dependente din setul lui y Schimbarea   unui guvern, spre exemplu, poate fi mai importanta pentru modul de viata al populatiei i dintr-un teritoriu dat decit crearea unei fabrici, in masura in care afecteaza mai   multe componente ale modului de viata, mai profund Acest tip de importanta a unei variabile sursa, fata de un set de variabile dependente, se estimeaza mai mult calitativ decit cantitativ Analiza de regresie este adecvata in situatii in care importanta este considerata in contextul relatiei dc la un set dc variabile independente spre una dependenta in afara de opozitiile natural-conventionai, actual-potential si nivel - variatie in analiza de regresie a importantei intereseaza si dimensiunea (iirect-indireci Efectul direct este masurat prin coeficientii beta si reflecta cantitatea de schimbare produsa in у (masurata in abateri standard) pentru schimbarea cu o abatere standard in x^ in conditiile tinerii sub control a celorlalte variabile independente Efectul indirect este cel care se 48 produce mediat, prin intermediul ailor variabile, (Estimarea acestuia se face in cadrul analizei de regresie cu coeficienti beta, folosind regresia ta flux, in cadrul careia o variabila x^ independenta in raport cu у este analizata si ca variabila dependenta in rapan cu xp tCoeficientul de corelatie r^^te considerat ca masura a efectului total al variabilei x asupra iui y, compus din efect direct (dat de beta), efect indirect   exercitat pnn celelalte vanabile independente, incluse in model si efect datorat unor" cauze comune lui x si y, neincluse in modei Ultimele doua tipuri de efecte poT^ fi estimate prin rezultatul diferentei (r^-bi ) (Duncan, 1974:137-138) Atunci cind se lucreaza cu un numar mare de variabile si cu regresie in lant sau in flux, problema importantei se pune diferit o variabila cu efect direct redus poale fi ioane importanta prin efectul ei indirect • Cu ajutorul programelor de calcul existente, determinarea parametrilor ecuatiei de regresie se face rapid, evitind calcule manuale care ar fi foarte laborioase Programele de analiza de regresie au ca dau de intrare fie matricea initiala de date (m variabile x, n unitati de analiza), fie matricea coeficientilor de corelatie dintre variabilele implicate in analiza, asociata cu mediile si abaterile standard corespunzatoare acestor variabile ^Pentru exemplificare vom relua exemplul densitatii de locuire prezentat in 1 4 s’*i>redlctia numarului de persoane pe camera in orasele unui judet (yt) va fi facuta de doua variabile independente: marimea medie a locuintei estimata prin numarul mediu de camere pe locuinta (x^) si marimea medie a gospodariei data de numarul mediu dc persoane pe gospodarie (x^) Matricea dc coeficienti de corelatie (r^) corespunzatoare celor trei variabile este: 4 S Уі   1,00 0,25 -0,87 S 0,25 1,00 0 16 Variabila dependenta y, coreleaza, deci, mai puternic cu x2 (rl2 = -0,87) decit cu x, (ru = 0,16) (Totdeauna corelatia variabilei cu ea insasi este egala cu 1 De aceea ui seria datelor de intrare pentru modelul de regresie multipla ai densitatii de locuire (si coeficientii derivati de tip beta, determinatie si elasticitate) mai trebuie incluse si mediile (yt, x^, x,) si abaterile standard (sp s}, Sj) corespunzatoare celor trei variabile: y1 = 1^2 8г=0,15 '  =2^0 ^=0,22 Xj = 3,13 Sj = 0,14 in functie de coeficientii de corelatie si abaterile standard, folosind algoritmul de calcul specific analizei de regresie multipla, rezulta ecuatia de regresie a densitatii de locuire in functie de marimea medie a locuintei si a gospodariei: y  x 1,645 - 0,674 • Xj+ 0,435 • x, 49 Cresterea locuintei medii dintr"un judet cu o camera este insotita, deci, in тефк de o reducere a densitatii de locuire cu 0,674 persoane pe camera, in conditiile mentinerii constante a marimii medii a gospodariei La rindul ei, sporirea marimii medii a gospodariei cu o persoana este insotita, in medie cu o crestere a densitatii de locuire de 0,435 persoane pe camera, in ipoteza controlarii (mentinerii constante) a marimii medii a locuintei (coeficicnTui de^eteftrflhatie multipli indica raportul dintre variatia variabilei dependente explicate de predictori in raport cu variatia totala a acesteia si se noteaza cu Rf 5 incazul de fata, R i " 0,90 Rezulta, deci, ca 90% (=R ьсіОО) din variatia interjudeteana a densitadi de locuire din urban ега^ехріісай jn 1977 prin тіелпёфи? marimii medii a locuintei si a gognodariei   2 3 ['conditii de APLiCARE i Postulatele care se adopta pentru regresie simpla (vezi 1 3 1 ) sint valabile si pentru re gres ia multipla in acest ultim caz, insa, apar Не aspecte noi ale restrictiilor mentionate la regresia simpla, fie schimbari in ordinea lor de importanta pentru validitatea modelului Vom relua, in continuare, postulatele mentionate pentru regresia simpla, accentuind asupra problemelor specifice pc care le pune respectarea lor in cazul regresiei multiple Cunoasterea amanuntita a acestor probleme este singura cale care permite evitarea unor artcfactc statistice, generate prin analiza de regresie Testele de semnificatie a modelului statistic precum si estimarile parameinlor accstm model (coeficienti de regresie si tejmeo hrerat regresiei) sint nemijlocit influentate de Jiradul in care sint respectate diferitele^ premise saii postulate specifice acestei metode de analiza Analiza amanuntita a conditiilor de aplicare a regresiei este necesara in special in situatiile in care se pune problema extinderii validitatii modelului de la nivelul esantionului la intreaga populatie din care acesta este extres Conducte de aplicare a regresiei vizeazJ^T^raponul intre observatiile incluse inanahza (2 patura si numarul de yariabite indeoeruientc Tjyn = 51 Corelatia multipla dintre у si setul de variabile independente se determina prin extragerea radicalului din Rh R = > r2 2 4 1 R si R2 variaza intre 0 si 1 Cu cit R2 este mai mare, cu atit este mai mare ponderea din vanajia totala a lui у explicata prin setul de variabile independente Deoarece valoarea coeficientului de determinati^ mnltinla tinde sa creasca odata cu* numarul de vanabile independente inchise Th modei se calculeaza un coeficient de determinare ajustat sau corectat in functie de numaruT acestora* • * N-p-l 2 4 3 unde: R2 - coeficient de determinare multipla neajustat; p - numar de predictQri sau de variabile independente in ecuatie: N - mumar dc unitati de analiza Evident R , Ft atunci se respinge ipoteza dc nul (R2 = 0 in populatie) si se accepta ipoteza alternativa ca R2 > 0 Folosind aceeasi formula 2 4 4 se determina si semnificatia pentru R2 Coeficientii de regresie partiala standardizati (beta) si nestandardizati precum si cei de elasticitate sint masuri diferite ale influentei specifice a unei variabile independente asupra uneia dependente, in conditiile tinerii sub control a celorlalte vanabile independente Dcterminatia multipla este o masura a gradului de adecvare a unui model de regresie la un anumit set de date Aceasta masura poate fi descompusa in coeficienti dg determinaiie partiala Coeficientul de determinare partiala d corespunzator variabilei independente x( indica marimea contributiei variabilei respective la explicatia pe care intregul set de variabile independente o realizeaza in raport cu variabila dependenta Cu cit valoarea lui dt este mai mare, cu atit variabila x are o contributie relativa mai mare la explicarea variatiei din variabila dependenta Coeficientul d poate fi interpretat si ca spor in proportia de variatie explicata, asociata cu introducerea variabilei x in modelul de regresie, impartit la proportia de variatie neexplicata de intregul set de variabile independente (K A Yeomans, 1968, voi ii; 197-198) Daca notam cu 1 variabila dependenta (y) si cu 2 si 3 variabilele independente x^, x,, atunci: proportia din variatia variabilei у explicata prin aditionarea variabileix, ^1-U"rn proportia de variatie a variabilei у neexplicata cu variabila x? 1 r u 52 ' unde: R^ 23 determinatia multipla a variabilei у in functie de variabilele 2 si 3 r 12 - coeficientul de determinatie a lui у in functie de x, fU-2J -ri similar 13 13 2 4 6 " 2 4 7 Daca sint date valorile coeficientilor beta b( si coeficientii de corelatie simpla (de ordinul zero) intre у si xf atunci coeficientul de determinatie partiala se mai poate determina si ca produs intre coeficientul beta si corelatia ryi : di=bi* Asa cum prin extragerea radacinii patrate din coeficientul de determinatie simpla se obtine coeficientul de corelatie, similar, prin extragerea radacinii patrate din d rezulta coeficientul de corelatie partiala Pentru cazul anterior mentionat cu 2 variabile independente 12 3 = 2 4 8 r12J se citeste "corelatia partiala dintre variabilele 1 si 2, controlind pe 3" Similar, corelatia partiala dintre 1 si 3 conirofind pe 2 se noteaza cu rBisi este data de ' iF, Acest ultim coeficient de corelatie, spre exemplu, este interpretat ca intensitate a legaturii dintre variabilele 1 si 3 in conditiile controlarii lui 2 Numarul variabilelor tinute sub control indica ordinul corelatiei partiale in exemplul anterior, rn 3 si rn 2 Sint corelatii partiale de ordinul unu Daca numarul variabilelor independente tinute sub control este de doua, trei sau patru, se cheama ca au fost determinati coeficientii de corelatie de ordinul doi, trei sau patru intelegerea sensului corelatiei partiale r|U poate fi usurata daca ne imaginam ca s-ar calcula corelatiile simple dintre x, si x2 separat pentru loturile corespunzatoare fiecareia din valorile variabilei xr Daca, spre exemplu x} ar avea patru valori, n,, n2, rij, n4, atunci s-ar calcula r12 pentru fiecare din loturile corespunzatoare celor patru valori Sa presupunem ca dintr-un total de n = 220 unitati, n ,= 50, n2= 60, n, = 80 iar n4 - 30 Daca pentru fiecare dintre aceste loturi s-ar fi obtinut corelatiile r}i=0 20 pentru primul grup, 0,27 pentru cel de-al doilea 0,18 pentru cel de-al treilea si 0,30 pentru cel de-al patrulea, atunci 0 20 - 50 + 0,27 • 60 + 0,18 - 80 + 0,30 30 л rir}s — - = 0,225 220 (Pentru interpretarea corelatiei partiale ca medie ponderata a corelatiilor totale calculate pentru fiecare din valorile variabilei de control, vezi H M Blalock , 1972: 436) Corelatia partiala de ordinul unu ri2J poate fi calculata si pornind de la corelatiile de ordinul zero: rm= 13 12 *13 *23 2 4 9 О 53 Dupa ce se constata ca Rj sau R* este semnificativ diferit de zero, se punt problema determinarii semnificatiei statistice a fiecaruia din coeficientii de regresie partiala Pentru aceasta se calculeaza valoarea testului F, asociata cu fiecare dintre coeficientii respectivi, Ft (testul F partial) Valoarea testului F pentru variabila independenta i este calculata ca raport intre variatia lui у explicata de x(, in plus fata dc celelalte variabile independente din model, si variatia neexplicata de intreg modelul dc regresie Valoarea teoretica din tabelul cu distributie F se citeste pentru 1 si (N-p-1) grade de libertate Daca F calculat este mai mare decit Fk ’eorede, atunci se considera cS respectivul coeficient de regresie este semnificativ diferit de zero O alta modalitate de determinare a semnificatiei coeficientilor de regresie partiali se bazeaza pe calcularea erorii standard asociate fiecaruia dintre ei * "Eroarea standard a unui coeficient de regresie partiala (si) este direct proportionali cu eroarea standard a estimarii (S) si invers proportionala in raport cu abaterea stan dard (sj a variabilei independente, cu toleranta ei si cu volumul esantionului Prin Toteranfflsedesemneaza proportia din variatia variabilei independente i neexglicata de tetewite ѵдгідМс din model Daca notam coeficientul de determinatie multipla corespunzator relatiei dintre variabila independenta i si celelalte variabile independente cuR  atunci, toleranta pentru itemul i este (1-R ,) Abatcrca-standard a variabilei x^ este data de formula 2 4 5 unde x - valoarea i a variabilei x,   - media respectivei variabile iar N - numarul dc unitati rnarea standard a eatmHruVtft" q щД^игЦ ^variatiei valorilor reziduale: L erorii respective modelul, Sili, Ш31 ШІ  ХШ, datelor Eroarea standard a estimarii este considerata (C Achen, 1982: 61-65) ca fund t masura д rfinrnrrffflijyi (goodness of fit) dintre model si date, mai buna decitjtoefi 54 tt arunci se respinge ipoteza сйЬ = o si se accepta ipoteza alternativa & * o, deci ipoteza ca bt este semnificativ diferit de zero Daca programul de calcul disponibil furnizeaza numai valoarea testului F- atunci testul i pentru variabila X se poate calcula t = VK 2 4,9 e i • ^Frecjtg^t, fa lucrurile care utilizeaza modele de regresie nudllallL siMJXjBUrtate ѵаіогіІ^дёйсцдімІці di, dcterminatie ttuitjgia a e "coeficientilor de reeresie ctivilor coeficienti, ra sau ale tgstului Din formula 2 4 7 rezulta ca eroarea standard a unui coeficient de regresie partiala este cu atit mai mare cu cit toieranta predictorului corespunzator'este mai mica, deci cu cit corelatia multipla (R *) dintre acel predictor si ceilalti predicion din modei este mai mare O intercorelare puternica intre predictori duce deci la reducerea preciziei in 55 estimarea coeficientilor de regresie partiala pe baza informatiilor incluse in esantion in sens invers actioneaza volumul esantionului Prin marirea acestuia, este posibil (conform relatiei din formula 2 4 7 dintre Svt si N) sa fie redusa eroarea standard a coeficientilor de regresie " 2 5 APLiCAtiE LA EXPLiCAREA VARiAtiEi iNTER JUDEtENE A DENSiTatii DE LOCUiRE (SUPRAFAtA LOCUiBiLA PE PERSOANA) 25 1 Densitatea de locuire № raport cu marimea locuintei si a gospodariei Suprafata locuibila pc persoana este un alt indicator semnificativ pentru densitatea de locuire si, implicit, pentru confortul de locuire informatia pe care o furnizeaza este complementara celei rezultate din analiza indicatorului persoane pe camera la care neam referit deja (2 2) ipoteza pe care o testam in continuare sustine ca densitatea de locuire sub aspectul suprafetei locuibile pe locuitor este cu atit mai mare cu cit locuinta este mai mica si cu cit numarul de persoane in gospodarie este mai mare Date de intrare: seriile de date ia nivel de total municipii si orase, pe judete, la rcccnsamintul din 1977, pentru variabilele: - suprafata locuibilS locatar x2 - persoane gospodarie x} -suprafata locuibila locuinta Rezultate de calcul Matricea coeficientilor de corelatie (r^) dintre cele trei variabile У *2 1,00 -0,10 -056 -0,10 1,00 0,74 Din citirea acestei matrici rezulta doua concluzii: a) cele doua variabile independente sint foarte slab corelate intre ele ru s -0 10 Deci, cu cit locuinta este mai mare, cu atit gospodaria este mai mica Coeficientul de determinatie dintre cele doua variabile este foarte mic r2 = 0,01 Numai 1% din variatia teritoriala a marimii medii a gospodariei este explicata de marimea locuintei si este normal sa fie asa intrucit al ti factori precum natalitatea sau migratia este de asteptat sa influenteze in principal marimea gospodariei; b) in al doilea rind este de retinut faptul ca suprafata locuibila ce revine unei persoane, in medic, tinde sa fie mai puternic asociata cu marimea locuintei (ru = 0,74) decit cu marimea gospodariei (rn= -0,56) Spre deosebire de coeficientul de regresie care este exprimat in unitati concrete (specifice pentru raportul dintre variabila dependenta si fiecare din variabilele independente), coeficientul de corelatie este o masura abstracta Din acest motiv 56 coeficientii de corelatie sint comparabili in mai mare masuri decit cei de regresie Corelatia dintre cele doua variabile independente din exemplul dat fiind foarte mica, corelatia lor cu variabila dependenta aproximeaza in buna masura valorile coeficientilor de regresie standardizati (beta) Corespunzator, se poate aprecia ca in acest caz marimea medie a locuintei influenteaza asupra densitatii de locuire in mai mare masura decit marimea medie a gospodariei in toate cazurile similare, cind corelatiile dintre variabilele independente sint mult mai mici decit cele care leaga variabila dependenta cu aceleasi variabile independente, ierarhia coeficientilor de corelatie cu variabila dependenta poate 6 considerata ca o prima aproximare a coeficientilor beta, respectiv a ierarhiei de importanta a predictorilor in raport cu respectiva variabila dependenta Ecuatia de regresie multipla asupra suprafetei locuibile pe persoana (SP) in functie de marimea locuintei (ML) si marimea gospodariei (MG) este: SP = 8,27 - 2,41 MG + 0,28 ML Deci, cresterea dimensiunii medii a gospodariei cu o persoana este insotita, in medie, de reducerea suprafetei locuibile pe persoana, la nivel de judet cu 2,41 тЧп conditiile mentinerii constante a marimii medii a locuintelor in sens invers poate actiona marimea medie a locuintei: sporirea acesteia cu o camera este insotita, in medie, de sporirea suprafetei locuibile pe persoana cu 0,28 m2 impreuna, cele doua variabile independente MG si ML explica 73% din variatia interjudeteana a densitatii de locuire masurata prin suprafap locuibila pc persoana (R2 = 0,79 si R = 0,89) Explicind peste 3 4 din variatia variabilei dependente, modelul de regresie are o marc capacitate explicativa si, implicit, prcdictiva Daca cele 39 de judete analizate ar fi considerate, prin conventie, ca esantion, atunci s-ar putea spune ca relatia dintre SP pe de o parte si MG si ML pe dc alta parte este semnificativa deoarece valoarea calculata a testului Fc = 66,52 este mai marc decit valoarea sa teoretica Aceasta din urma este determinata in tabelul anexa in functie dc numarul de variabile independente din model (p = 2) si dc numarul de unitati incluse in analiza (N = 39), diminuat cu numarul de variabile independente plus 1 in functie dc 2 si 36 grade de libertate, valoarea teoretica (din tabelul anexa) a lui F, pentru nivelul de probabilitate de 0,05, este dc 3,26 Coeficientul de corelatie multipla este, deci, semnificativ mai marc decit zero Pentru a testa semnificatia actiunii separate a fiecareia din variabilele independente asupra celei dependente, au fost calculate erorile standard corespunzatoare coeficientilor de regresie partiala: Sb2 = 0,269 si Sb3 = 0 044 Prin impartirea coeficientilor de regresie partiala la aceste erori standard se determina valorile testului t: ц = 8,97 iar Ц = 6,33 Nivelul teoretic al testului respectiv pentru 39 - 3 = 36 grade de libertate si probabilitatea 0,05 este 1,68 Cum in ambele cazuri valoarea calculata este mai mare decit cea teoretica, ambii coeficienti de regresie partiala pot fi considerati ca fiind semnificativ diferiti de zero (cu o probabilitate de eroare de 5%) 57 Atit marimea locuintei cit si dimensiunea medie a gospodariei sint, deci, predic lori eficienti ai densitatii de locuire (considerata sub aspectul suprafetei locuibile pe persoana) Valoarea redusa a erorilor standard in raport cu coeficientii de regresie partiala indica o mare stabil trate a acestor coeficienti, independent de esantionul pe care sint calculati Marimea medie a locuintei este mai importanta decit marimea medie a gospodariei pentru densitatea de locuire Afirmatia este sustinuta de valorile coeficientilor beta: cresterea cu o abatere standard (pe scala ML) a marimii locuintei este insotita, in medie, dc o crestere cu 0,69 abateri standard (pe scala SP) a suprafetei locuibile pe persoana, iar sporirea dimensiunii medii a gospodariei cu o abatere standard (masurata pe scala MG) duce, in medie, la reducerea suprafetei locuibile pe persoana cu 0,49 abateri standard (pe scala SP) Abaterile standard pentru cele trei variabile sint: SN(L = 1,51 m2; SMC = 0,12 persoane; SSR - 0,61 m2 Corespunzator, interpretarea coeficientilor beta poate fi reformulata astfel: cresterea suprafetei medii a locuintei cu 1,51 m3 este, in medie, insotita de o sporire a suprafetei locuibile pe persoana cu b,^ • Ssp = 0 69-0,61 =0 42 m2 iar unei cresteri a dimensiunii medii a gospodariei cu 0,12 persoane ii corespunde, in medie, o reducere a suprafetei locuibile ce revine in medic unei persoane, cu bMG • Ssp = 0,49 -0,61 = 0,30 m3 Evident, coeficientii beta sint mai comparabili intre ei decit coeficientii b (de regresie partiala nestandardizati) dar nu perfect comparabili Abaterile standard fiind unitati de masura mai abstracte permit compararea coeficientilor beta chiar pentru variabile independente exprimate in unitati de masura foarte diferite Totusi, ierarhia de importanta care rezulta din folosirea coeficientilor beta pastreaza o buna nota de conventionalism pentru ca abaterile standard se exprima, la rindul lor, tot in unitati dc masura "naturale" specifice variabilei pentru care sint calculate Dintre cele doua variabile cu influenta asupra densitatii de locuire, marimea medie a locuintei este ccl mai uscr de modificat prin masuri de politica social-economica Dimensiunea medie a gospodariei are o mare inertie si este dificil de influentai, pe termen scurt, prin masuri social-economice in consecinta sc poaie aprecia ca marimea medie a locuintei este mai importanta pentru densitatea de locuire nu numai sub aspect teoretic ci si practic, din punct de vedere al actiunii sociale Evident, despre aceasta importanta practica, sau dc continut, analiza statistica nu spune nimic Prin ea se poate estima numai care sint schimbarile previzibile la nivelul variabilei dependente pentru schimbari date ale variabilelor independente in general, ale celor importante din punct de vedere practic in particular Pentru o evaluare cu semnificatie practica sa consideram grupul judetelor ale caror orase aveau in 1977 30 m2 suprafata locuibila pe locuinta, in medie 58 cu 'valorile corespunzatoare pe cd trei indicatori, inclusi in modelul de regresie multipli: Suprafata locuibili  locuinta (m p ) Peraoane  foapodkie Suprafata locuibila  persoana (mip ) Bacau 3OJ7 3 15 9,07 Caras-Severin Э0Д1 3 13 9,34 Covaana 30,46 3 05 9,63 Gaj 30,28 3J1 9,21 Maramures 29,84 3,34 8,57 Vaslui 29 60 ЗД5 8,30 medie pe cele 6 judete 30 13 3,18 9 02 Densitatea de locuire estimata pentru un judet cate ar fi caracterizat prin valorile specifice acestei grupe de judete ar fi: SP‘  8,27 - 2,41 • 3 18   0,28   30,13 = 9,04 m3 persoana O astfel de densitate estimata este foarte aproape de media calculata pentru respectivele judete (9,02 m2 persoana) Pornind de la aceste date se pot pune doua intrebari, relevante din punct de vedere a) actiunii social-economice: a) ce imbunatatire a densitatii de locuire este de asteptai sa se obtina daca se realizeaza o crestere a suprafetei medii a locuintei de la 30,13 m2 la (spre exemplu) 33 in3, in conditiile mentinerii gospodariei la aceeasi dimensiune medie de 3,18 persoane; b) cu cit ar trebui sa creasca dimensiunea medie a locuintei, in conditiile mentinerii marimii medii a gospodariei, pentru a realiza o densitate de locuire de (spre exemplu) 10 m1 suprafata locuibila persoani Pentru a raspunde la prima intrebare se introduce in ecuatia densitatii de locuire valoarea propusa a predictoriloc SP = 8,27 - 2,41 • 3,18 + 0,28 • 33,13 = 9 88 m2 persoana Prin marirea suprafetei medii a locuintei cu 2 m2 s-ar obtine, deci, o imbunatatire a densitatii de locuire in sensul sporirii suprafetei locuibile pe persoana de la 9,04 la 9,88 m3, cu aproximativ 0,80 m2, deci O astfel de imbunatatire s-ar realiza in medie, pe ansamblul grupei si nu pentru fiecare dintre judete Pentru a raspunde la cea de-a doua intrebare pusa anterior, inlocuim in aceeasi ecuatie de regresie a densitatii de locuire valorile propuse: 10 = 8,27 - 2,41 - 3,18 + 0,28 • ML De aici rezulta ca in grupa de judete analizate ML (marimea medie a locuintei) ar trebui sa fie de 33,55 m2 (fata de 30,13, cit era in momentul inregistrarii datelor folosite) pentru a ajunge la densitatea de locuire de 10 m2 persoana 59 Analiza intreprinsa, conform regulilor prezentate in 1 3 L, asupra valorilor reziduale indica existenta unei concordante de ansamblu intre postulatele regresiei si datele folosite in acest caz: - norul de puncte din suprafata circumscrisa de abscisa valorilor estimate si ordonata valorilor reziduale nu are o distributie sistematica dupa un model identificabil in consecinta, se pare ca postulatul liniaritatii este respectat; - postulatul egalitatii dispersiilor iui у pentru diferite combinatii de valori ale variabilelor independente este de asmenca respectat deoarece nu se observa o crestere sau descrestere sistematica a imprastierii norului dc puncte pe masura cresterii valorii estimate a variabilei dependente Dupa normalizarea seriilor dc date corespunzatoare celor trei variabile incluse in model (conform formulei 1 2 14) se constata ca limitele dc + 3,16 sint depasite numai pentru judetul Arad La nivelul acestuia valoarea normalizata a suprafetei locuibile pe locuinta este: ML normalizai Arad m 51 = 331 Pentru acelasi judet (totalul oraselor sale) se inregistreaza o valoare normalizata excesiva si pe indicatorul densitate de locuire: SP -SP Afid madiegamll SP = nonn*iiz"t And abatere standard a indicatorului SP 1136-9,25 =3'46 Conform regulilor mentionate (1 3 1 ) este de asteptat ca in legatura cu aceste valori extreme sa se fi produs o supraestimam a coeficientului de corelatie dintre marimea locuintei si densitatea de locuire intr-adevar, corelatia dintre cele doua variabile calculata pentru 39 de judete este r = 0,74 iar, fara judetul Arad, pentru 38 de judete r = 0,63 Reluind calculele fara acest judet, se obtine o noua ecuatie de regresie cu parametrii usor modificati fata de cea calculata pentru 39 de judete Comparativ, valorile caracteristice pentru cele doua modele dc regresie arata astfel: model cu 39 judete model cu 38 judete (fara Arad) | termen liber regresie a 8,27 8 29 1 coeficient de regresie -2,41 -238 coeficient dc regresie 0 28 •027 determinare multipla R2 0 79 0,69 beta MG -0,49 -034 beta ML 0 69 0 70 eroarea standard a estimatei 0 291 0356 60 model ca 39 judete model cu 38 judete (ftrt And) eroarea standard 0369 0324 eroarea standard 0 044 0,047 ' test t^Q 8 97 733 testt^ 6 33 5 70   in ambele cazuri coeficientii de regresie partiali si de corelatie multipli sini semnificativ diferiti de zero O usoara reducere a valoni lor se produce atunci cind se exclude din analiza judetul pentru care s-au inregistrat valori aberante la doi dintre indicatori Nefiind vorba de un esantion ci de ansamblul judetelor si luind in consideratie faptul ca excluderea judetului Arad nu induce modificari considerabile in parametrii modelului de regresie apreciem ca in acest caz este indicata optiunea pentru primul model, cei cu 39 unitati de analiza sau pentru cel care sa ia in consideratie Bucurestiul si toate judetele Datele din tabelul 2 5,1 indica faptul ca puterea explicativa maxima se inregistreaza in cazul modelului M 1, cu 40 unitati de analiza (R2 = 0 81) Tabel 2 5 1 Modele de regresie eu "suprafata locuibila pe persoana** ca variabila dependenta Mode] de regresie multipla Coeficicnp de regresie R2 R2 ajusiai Tcnncn liber regresie marimea gospodariei (persoane  gospodarie) (marimea locuintei) suprafata locuibili  locuinta judet din Transilvania, Banal sau Crisana-Maramuret 1 -da 0-nu 0 1 2 3 4 5 6 • cu coeficienti nestandardizati Ml cu 39 judete + Bucuresti -2,67 0 28 0 81 0,80 9 1 М2 cu 39 judete -2,41 0,28 0,79 0,78 8,3 М3 cu 38 judete (exclus jArad) -238 0,27 0 69 0,67 8,3 |M4 cu cele 16 judete din bercul intracarpatic -2,73 0 25 0 92 0 91 10,2 M5 cu cele 23 judete din tafara cercului carpatic -2,09 0 28 037 032 7 2 61 (continuare tabel 23 1) 0 1 2 3 4 5 6 M6 cu cele 23 judete si cu variabila judet in arcul intracarpatic** -236 0 27 0 10 0,79 0 78 83 • cu coeficienti standardizati - Ml -058 0 63 М2 -0,49 0,69 М3 -OJM 0,70 M4 -054 0,63 M5 -0,4" • 0,73 Мб -0,48 0 68 0 08 2 5 2 Structuri de locuire zonale Atit marimea locuintei cit st dimensiunea medie a gospodariei cunosc diferentieri in functie de regiunea istorica informatii calitative si cantitative anterioare (obtinute in cadrul diferitelor lucrari la care am participat in Laboratorul de studii si cercetari sociologice) ne permit avansarea ipotezei ca structurile de locuire sint diferentiate in functie de apartenenta judetului la regiuni istorice din arcul intracarpatic (Transilvania, Banat, Crisana-Maramures) sau din afara acestuia (Moldova, Muntenia, Oltenia, Dobrogea) Relatiile dintre cele trei variabile cu care am lucrat in modelele de regresie prezentate anterior pot fi considerate ca parte integranta a unei astfel de structuri de locuire Diferentierea structurilor de locuire exista, probabil, nu numai intre cele doua categorii de regiuni istorice, ci si intre fiecare din regiunile respective Pentru scopurile de ilustrare a aplicarii analizei de regresie este utila, indeosebi, distinctia dintre cele doua categorii de grupari Din acest motiv, in continuare vom desfasura analiza numai in functie de distinctia intracarpatic-extracarpatic Profiluri de locuire inainte de a trece la prezentarea structurilor de locuire pe cele doua tipuri de regiuni, mentionam diferentierile in termeni de medii si abateri standard ale celor trei indicatori de locuire in functie de respectivele categorii in tabelul 2 5 2 Toti cei cinci indicatori au o variatie redusa in cadrul aceluiasi tip de regiune Atit structurile fizice ale locuirii (SL, CL) cit si cele sociale (PG, SP, PC) sint diferite intre cele doua tipuri de judete in judetele extracarpatice (categoria B) fata de cele intracarpatice (categoria A) locuintele sint mai mari sub aspectul numarului de camere dar mai mici in privinta suprafetei locuibile Dimensiunea medie a gospodariei este foarte apropiata intre cele doua tipuri de judete (putin mai mare in tipul В decit in A) 62 Tabef 2 5 2 indicatori al locuirii pa judafo-bitmearpatico fl extrecarpatieo A Judete intracarpatice B Judete extracatpatice i , medic abatere standard coeficient de variatie* medie abatere standard coeficient de variatie * suprafata locuibila pe locuinta •Л ;  ' ‘ • (SL) 31,21 1 73 30 49 132 4Д0 "penoane pe gospodarie (PG) ’  3 12 A14 4 49 3 14 0 15 4 78 • sutrafatalocuibiUVpenoma 9,48 03* , 7Д8 9 16 0,60 635 - (SP) •' у у - •    "camere pe loaantafCL) 7 r’ljt 0 Q5 232 235 0 16 631 * persoane pe camedL (PC)  ' v: 1Д7 039 5 39 133 0 10 6 99 in concordanta cu diferentierile de marime a locuintei, densitatea de locuire este, h judetele intracarpatice, mai mare sub aspectul numarului de persoane pe camere dar mai mica din punct de vedere ai suprafetei locuibile ce revine pe locatar invers, in judetele extracarpatice, ta o camera revin mai putine persoane dar suprafata locativa pe o persoana este mai mica (decit in judetele din categoria intracarpatica) Cunoscind profilurile celor doua categorii, se poate trece fti continuare la prezentarea relatiilor dintre indicatori, la generarea unor structuri de locuire ui functie de ei Structuri de locuire gi coeficienti de corelatie Densitatea de locuire, sub ambele ei aspecte - de suprafata locuibila pe persoana si de persoane pe camera - constituie perspectiva din care incercam sa descifram aceste structuri de locuire in primul rind vom desfasura analiza cu ajutorul coeficientilor de corelatie Structurile constituite in raport cu suprafata locuibila pe persoana pot fi descrise prin seriile de coeficienti de corelatie dintre aceasta variabila si celelalte patru anterior mentionate: 16 judete intracarpatice 23 judete extracarpatice toul 39 judete * camerMocuinta 0,67 0 29 -0,10 * suprafata locuibila  031 039 0,74 locuinta ’ persoane gospodarie -0,75 -038 -036 • pereoane camera -0 76 -0,73 -0,19 • V s (abatere standard medie) • 100 este o masura relativa a gradului de imprastiat a unei serii dc date Daca V 60% seria este considerata ca foarte eterogeni 63 in ambele categorii de judete densitatea de locuire, sub aspectul suprafetei locuibile pe persoana, este corelata mai puternic cu suprafata medie a locuintei decit cu dimensiunea medie a gospodariei Fiind calculate pentru colectivitati de volum diferit, selectate nealeatcriu, coeficientii de corelatie nu pot fi comparati sub aspectul marimii lor decit in cadrul aceleiasi coloane (pentru aceeasi colectivitate, deci) Pentru problemele tehnice legate de calcularea coeficientului de corelatie este de evidentiat variatia acestui coeficient in cazul relatiei dintre numarul mediu de camere pe locuinta si suprafata locuibila pe persoana Atit pentru judetele intra* carpatice cit si pentru cele extracarpatice, acest coeficient este pozitiv (0,67 si, respectiv, 0,29) Pe ansamblul celor 39 de judete, el este negativ (-0,10) Cum este posibil caaceasi relatie sa-si modifice sensul cind se intrunesc cele doua serii de date? Mai ales in conditiile in care colectivitatile cu сзге se lucreaza sint de volum redus, pot fi intilnite frecvent astfel de surprize Schimbarile se produc, intre altele, datorita aparitiei unor valori extreme, aberante (cu valoare normalizata in afara intervalului ± 3,16) in exemplul la care ne referim, o astfel de valoare este specifica judetului Arad pentru indicatorul suprafata locuibila pe persoana (SP) Valoarea nenormalizata a indicatorului in acest caz este 1136 m1 in cadrul seriei formate din cele 16 judete intracarpatice, pentru acelasi indicator media este de 9,48 m2, iar abaterea standard de 0,69 Corespunzator, valoarea normalizata este de (1136-9,48)   0j69 = 2,72 Pe ansamblul celor 39 de judete, normalizarea se face cu o medie si cu o abatere standard diferite (9,25 si, respectiv, 0,61) indicele de densitate normalizata pentru Arad este, in consecinta, diferit: (1136 - 9,25 0,61 = 3,46 indicatorul "numar de camere pe locuinta*’ are, atunci cind respectivul judet este considerat in seria tuturor judetelor, valoarea normalizata de —0,70 Coeficientul de corelatie dintre doua variabile x si у se calculeaza, dupa cum am mentionat deja (formula 1 2 15), si ca suma de produse dintre cele doua variabile normalizate (r =  (x • y) N, unde x si у sint variabilele normalizate cu testul z, iar N - numarul de unitati) Pentru indicatorii din exemplul nostru, atunci cind se considera • toate cele 39 de judete, cantitatea  (xy)=-3 9 Judetul Arad contribuie la aceasta suma ? cu cantitatea (3,46)   (-0,70) & -2,42 Este evidenta, deci, influenta hotantoare a valorii excesive a indicatorului suprafata locuibila pe persoana in cazul judetului Arad Prin recalcularea corelatiei dintre cele doua variabile fara Arad, cu numai 38 de judete, legatura dintre ele apare ca fiind tot negativa dar foarte apropiata de zero, r = -0,05 (De ce se mentine totusi negativ, vom analiza ulterior) Exemplul dat, evidentiaza necesitatea de a analiza valorile normalizate ale indicatorilor, de a detecta valorile aberante si in functie de situatie, de a lucra cu sau fara aceste valori in special in situatiile in care colectivitatea de analiza este de volum redus, iar covariatia care implica valori aberante este de sens diferit fata de covariajia, restului de valori normate, consideram oportuna eliminarea din caicul a unitatilor cu valori aberante Altfel riscam sa adoptam o imagine falsa despre relatia dintre ansamblul unitatilor analizate Daca pentru relatia dintre suprafata locuibila pe: 64 регаогайр munteni de camere pe locuinta am fi cafeniu mimai coeficientul de corelatie pe ansamblul celor 39 de judete, am fi putut ihmfoe ofipotezaca aceste variabile sint slab legate intre ele   oricum, in sens negativ ipoteza ar contraveni ta acest J si bunului stat, te bizacteuia "totem tentati sa ne asteptam ca acolo unde locuintele stat mai mari (chiar daci aceasta marime este evaluata la numar de camere fi nu fn suprafata locuibila) suprafata locuibila ce revine unei persoane sa fie mai mare Dezagregarea seriilor de date pe judete intra ft cxtra carpatice 41 localizare; valorilor aberante a permis o prima aproximare a raspunsului corect Pentru a evita generarea unor artefitete statistice cu cafeniul de corelatie este foarte important ca programele de calcul prin care se rafineaza analizele de acest tip sa permita: а) ййяі^ідом caturilor te care apar valori aberante fi b) efectuarea unor rulari repetate te diferite variante care includ sau exclud astfel de caturi fo functie de particularitatile datelor cn care se lucreaza (esantion sau populatie totala, colectivitate mare sau mica etc ) Corelatia dintre marimea locuintei estimata prin numarul de camere fi densitate de locuire sub aspectul suprafetei locuibile pe persoana trimite la o mica problema practica a analizei de corelatie in seria judetelor intereaipatice aceasta corelatie este de 0,67 Pentru gruparea complementara, corelatia re mentine cu sensul ei firesc, pozitiv, dar este mult mai mica (0,29) in fine, pentru ca cele doua grupari ta ansamblu (exceptand judetul Arad, datorita valorii sale excesive pentru indicele SP) corelatia ajunge foarte aproape de zero Situatia ne pare a fi o ilustrare pentru regula mai generala ca "daca re amesteca date corelate si date necorelate, corelatia dintre toate aceste date va fi mai mica du it corelatia datelor initiate corelate** Yule, Kendall, 1969 : 352) Daca am repeta in ani diferiti analiza de corelatie pentru cete doua variatele, pentru judetele intracarpatice, extracarpatice si pe total tara, eliminind de fiecare data judetele cu valori aberante, atunci este probabil ca situatia la care se refera regula de mai sus ar aparea cu mai multa claritate: ta colectivitatea judetelor intracarpatice s-ar inregistra o corelare de nivel ridicat iar ta colectivitatea celor extracarpatice si pe total tara corelatii de nivei coboTiL si totusi, chiar in conditiile ta care am eliminat judetul cu valori excesive, pe total tara s-a obtinut o corelatie negativa intre marimea locuintei si suprafata locuibila ce revine una persoane Desi foarte mica, apropiata de zero, aceasta corelatie se cere totusi explicata Ea contravine asteptarii noastre de a avea o corelare pozitiva intre marimea locuintei si suprafata locuibila care revine unui locatar O astfel de asteptare este corecta cu conditia sa fie completata cu o specificare: suprafata locuibila care revine unei persoane este de asteptat sa fie cu atit mai mare cu cit locuinte (medie) are un numar mai mare de camere, cu conditia ca locuintele comparate sa aiba un pattem de ocupare similar Ce inseamna acest pattem de ocupare? in sociologia lecuirii, notiunea are un sens complex si vizeaza marimea gospodariilor care ocupa locuintele de o anume marime, categoria sociala a celor care ocupa diferite 65 tipuri de iocumte, nodul in care diferiti membri ai gospodariei ocupa sau fokecsc spatii functionale din locuintaetc : Pcnuu acest context retinem o singurii nota a panem-ului de ocupare: marimea; gospodariei care ocupa un anumit tip de locuinta  ' '  in acest ultim sens restrins al notiunii avansam ipoteza ca la nivel social exista; un patiem de ocupare a locuintelor, diferit intre cele doua categorii de judete   in orasele din Banat Crisana-Maramures fi Transilvania se manifesta tendinta ca locuintele mici sa fie ocupate de gospodarii mai numeroase iar cele mari de gospodarii cu numar mai mic de persoane Desi relativ slaba, o astfel de asociere se ; manifesta atit in legatura cu numarul oe camere cit fi cu suprafata locuibila a locuintei ; in orasele din judetele extracarpatice asocierea dintre marimea locuintei fi marimea gospodariei este mai mare decit in cele intracarpatice si de sens diferit: locuintele mari, sub aspectul suprafetei locuintei fi al numarului de camere, tind sa fie; ocupate de familii numeroase iar cele mici de familii cu numar redus de membri   lata argumentarea cantitativa (in termeni de coeficienti de corelatie) a acestor afirmatii: ' Vanabile corelate judete intracarpatice judete extracarpatice total tari (toate judetele exeeptind Aradul) pcrsoane gospodirie-camere  locuintl -037 039 0J2 persoane gospodarie—suprafatl locuibil Vlocuintl -035 0,28 0 13 Asocierea cea inai polemica si de sens pozitiv este cea dintre marimea gospodariei si numarul mediu de camere pe locuinta in seria judetelor extracarpatice (r - 0 59) Modelul de ocupare la nivelul tarii este impus de judetele extracarpatice mai, numeroase decit cele intracarpatice (23 fata de 16) in orasele din provinciile intracarpatice asocierea dintre marimea locuintei si cea a gospodariei este mai mica si' de sens negativ - locuintelor mici le corespund gospodarii numeroase si invers De ce, stau lucrurile asa care sint implicatiile acestei situatii pentru structura sociala si pentru modul de locuire - toate acestea sint probleme importante care se cer a fi reluate intr-un alt context, cu alte date (Date dezagregate in functie de felul locuintei - in cladiri colective sau individuale - ar fi deosebit de utile pentru a elucida aceasta problema a paiiem-urilor de ocupare a locuintelor in profil teritorial in asteptarea unei oportunitati dc analiza in acest sens, avansam ipoteza ca locuintele individuale, mai mult decit cele situate in cladiri colective tind sa se conformeze in mai mare masura unui pattem de ocupare de tipul celui anterior descris) imbogatiti cu aceste informatii, sa revenim la problema relatiei care, din fericire pentru scopurile metodologice ale acestei lucrari, ne-a pus in fata atitor semne de 66 intrebare - relatia dintre numarul de camere pe locuita si suprafata ixuibila pr persoana Dup* cele spuse in paragrafele anterioare este clar ca numarul de camere pe locuinta este un indicator care are atit o semnificatie proprie "denotativa? - cit de mare este locuinta, dl si una improprie, "conotativa" (D Sandu, 1989 a) Aceasta din este cea legal* de marimea gospodariei stiind cfte camere are locuinta medie dit;:r un judet, putem spune ceva ("estima" in termenii analizei de regresie) nu numai despre marimea propriu-zisa a locuintelor, ci si despre marimea gospodariilor care le ocupa si putem face o astfel de inferenta cu ajutorul coeficientilor de regresie simpla, folosind date din tabelul 23 2 Coeficientul de regresie a numarului de persoane pe gospodarie asupra numarului de camere pe locuinta (conform formulei derivate din 1 2 17) este pentru judetele intracarpatice de -1,036 iar pentru cele extracarpatice de 0,35 Deci, cresterea dimensiunii medii a locuintei cu o camera este insotita, in primul caz, de o reducere a dimensiunii medii a gospodariei cu 1,036 persoane iar, in cel de-al doilea caz, de o crestere a acestuia cu 035 persoane Daca in relatia dintre marimea locuintei si suprafata locuibila pe persoana am controla intr-un fel semnificatia denotativa a primului indicator, atunci este probabil ca am inregistra o relatie pozitiva intre ei si la nivel de tara, nu numai ih cadrul fiecarei categorii de judete Cu ajutorul corelatiei partiale vom reusi o astfel de, sa*i spunem, purificare a variabilei independente de sensul ei coootativ Pentru aceasta vom folosi dimensiunea medie a gospodariei (PG) ca varnbSf de control ih rotatia dintre marimea locuintei (CL) si suprafata locuibila pe persoana (SP) Cu ajutorul formulei 2 4 9 determinam corelatia partiala dintre ultimele doua variabile, (inind sub control pe prima Astfel, pentru judetele intracarpatice aceasta este: r  l-r’ V1 -(0 37У- V1 -(-0,75)2 CLFQ SrPO Pentru toate cele trei colectivitati analizate prezentam mai jos corelatiile partiale calculate dupa aceeasi formula si elementele de calcul necesare: rCLPG rros₽ rCLSP rCL SP-PG judete intracarpatice -037 -0 75 0,67 0 64 judete extracarpatice 039 -0,28 039 039 toate judetele (fara Arad) 0 32 -0 45 -0,05 0,11 Odata eliminat (sau controlat) efectul marimii medii a gospodariei, relatia dintre marimea locuintei si densitate creste pentru grupa judetelor extracarpatice, de la 039 la 0,59 in fine, pe total judete se obtine sensul pozitiv al relatiei dintre CL si SP Daca in fiecare judet marimea medie a gospodariilor ar fi aceeasi, atunci, intre dimensiunea locuintelor si suprafata locuibila pe persoana ar fi inregistrata o corelatie pozitiva si la nivel national 67 Am Analizat diferentierea structurilor de locuire pe categorii de judete din perspectiva indicatorului suprafata locuibila pe persoana q Sa urmarim daca apar informatii demne de reprart prin adoptarea cehiilalt indicator al densitatii de locuire - persoane pe camera - ca perspectiva privilegiata de i considerare a structurilor de locuite ,   Mai jos sint prezentati coeficientii de coreltie dintre acest indicator si ceilalti indicatori la care ne-am referit ' 16 judete intracarpatice 23 judete extracarpatice total 39 judete camcr^locuintl -0,73 -0 78 -039 suprafata locuibila  locuinta -030 -0,63 -0,10 persome gospodlrie 0,78 -0Д2 0 01 suprafata locuibila  persoana -0 76 -0,73 -0,19 Relatia dintre marimea gospodariei si densitate (sub aspectul numarului de persoane pe camera) este de asteptat sa fie una pozitiva: cu cit este mai mare gospodaria cu atit densitatea ar trebui sa fie mai mare Acest sens al relatiei se inregistreaza insa numai in cazul judetelor intracarpatice (r = 0,78) Sensul negativ al relatiei respective, manifest in seria judetelor extracarpatice, este de pus in legatura cu acelasi pattem specific de ocupare, la care ne-am referit anterior Pentru a "purifica" indicatorul "persoane pe gospodarie" de semnificatia sa conotativa, asociata cu marimea locuintei, vom calcula corelatiile partiale dintre dimensiunea gospodariei si numarul de persoane pe camera, tinind sub control marimea medie a locuintei Corelatiile partiale rezultate sint toate de sens pozitiv si mai mari decit corelatiile simple corespunzatoare Pentru judetele din arcul carpatic corelatia partiala respectiva este de 0,80 (in loc de 0 78), iar pentru cele extracarpatice de 0,48 (compara cu corelatia simpla -0 22) La " nivelul intregii tari, pe total judete valoarea corespunzatoare este de 0,71 (in loc de 0 01 cit era corelatia simpla) Explicatie predictie prin analiza de regresie Modelele M4 si M5 din tabelul 2 5 1 prezinta parametrii ecuatiei de regresie a suprafetei locuibile pe persoana (ca variabila dependenta) asupra marimii locuintei si a gospodariei, pe cele doua categorii de judete Coeficientii beta, comparabili in cadrul aceleiasi ecuatii de regresie indica pentru ambele grupuri de judete o influenta mai puternica a marimii locuintei decit a marimii gospodariei, asupra densitatii de locuire Cu cit locuinta medie este mai mare si cu cit dimensiunea medie a gospodariei este mai redusa, cu atit este mai mare suprafata ' locuibila pe locuitor 68 " in functiede coeficientii de regresie nesundardizati poate fi evaluata influenta diferentiata a aceleiasi variabile independente in contexte diferite Cresterea dimensiunii medii a gospodariei cu o persoana este insotita in judetele din arcul intracarpatic de o reducere a suprafetei locuibile pe persoana, cu 2,73 m2 iar ia judetele din Moldova Muntenia Oltenia si Dobrogea cu numai 2 09 Se poate aprecia, deci, ca marimea medie a gospodariei actioneaza asupra densitatii de locuire mai puten in prima decit in cea de-a doua categorie de judete in schimb, marimea medie a locuintei pare sa aiba o influenta foarte apropiata in ambele tipuri de judete impreuna, cele doua variabile independente explica 91% din variatia densitatii de locuire pentru judetele din arcul intracarpatic si 52% pentru cele din afara acestuia Modelul acesta de regresie este mai adecvat, deci, in primul decit in cel de-al doilea caz Ramine de determinat prin alte analize, dispunind de alte date, care sint variabilele care trebuie incluse, in cel de-al doilea model pentru a obtine o mai buna explicare a variatiei interjudetene a densitatii de locuire Sporirea puterii explicative a unui model de regresie poate fi realizata fie printr-o mai buna specificare a sa (includere de variabile adecvate sau excluderea celor neadecvate, schimbarea formei ecuatiei de regresie) fie prin dezagregarea seriilor de date in grupe mai omogene sub aspectul structurii lor cauzale Cum in foarte putine cazuri se stie care este dezagregarea optima a seriilor date, trebuie procedai la efectuarea unor experimente statistice (facilitate de programele de calcul care permit repetarea rularii pe esantioane sau loturi derivate dintr-un esantion de baza) "Dezagregarea datelor este o cerinta majora in foarte multe analize de tip statistic Exista trei modalitati majore de realizare a agregarii sau a dezagregarii lor: a) prin schimbarea unitapi de analiza: b) prin transformarea unor variabile fie in sensul maririi (agregare) sau reducerii (dezagregare) complexitatii lor; c) prin schimbarea compozitei seriilor de date in conditiile mentinerii acelorasi unitati de analiza si ale aceleiasi variabile O dezagregare de primul tip (dezagregare de unitati) se obfine, spre exemplu, prin trecerea de la analiza la nivelul unor localitati, la analize care lucreaza cu indivizi Trecerea de la indici ai migratiei, la indici ai migrafiei primare, secundare, tertiare etc este un exemplu pentru cel de-al doilea tip de dezagregare ("variabile*) Dezagregarea prin segmentarea seriilor de date presupune, in fapt, regruparea datelor pe diferite subclase " O ilustrare a efectului de dezagregare ("in trepte**' a seriilor de date va fi facuta prin regruparea judetelor extracarpatice in trei subcategorii: judete din a) Moldova, b) din Muntenia si Oltenia si c) din Dobrogea Deoarece in ultima subcategorie nu sint decit doua judete (Constanta si Tulcea), vom renunta la ea, fiind imposibila aplicarea analizei de regresie sua corelatie la numai doua unitati Deci, prima treapta a dezagregarii a fost realizata prin consiniirea seriilor de date pentru judete intracarpatice si extracarpatice Avantajele acestei dezagregari (fata de tratarea nediferentiata a tuturor judetelor) au rezultat cu claritate in special in legatura 69 uri de ocupare probabile, deduse din compararea marimii locuintei cu marimea gospodariei Pattem-urile de ocupare reale nu pot fi cunoscute decit in baza unor distribupi corelate, care precizeaza ce marime au gospodarite care stau in locuinte de o anume marime Corelatiile cu serii de coeficienti de corelatie in majoritatea cazurilor, variabile folosite pentru analiza de corelatie sint caracteristici cantitative ale unor unitati in anumite situatii, variabilele respective pot fi inlocuite cu serii de coeficienti de corelatie Corespunzator, se calculeaza un coeficient de corelatie pentru fiecare pereche de astfel de serii Tabel 2 5 3 Marimea locuintei sl a gospodariei si densitatea de locuire pe regiuni ist o rl co-geog raf i ce indicator statistic indicator dc analiza ; Gruparea Transilvania, Banat Cris an a-Maramures Moldova Muntenia - Oltenia medic camcre locuinta (CL) suprafata locuibila  1,98 2,22 2 40 locuinta(SL)m2 suprafata locuibila camera 31 21 29,91 30 61 i 1 (SC) m2 15 74 13,46 12,80 persoane gospodanc PG 3 12 3 11 3,18 persoane camera PC suprafata locuibili  1 67 133 1 39 persoana SP, m2 9 48 8 84 9,23 abterc CL 0,05 0 09 0 15 standard SL 1 73 0 91 1 30 SC 0,71 0 49 0 48 PG 0,14 0 07 0,13 PC 0 09 0 09 0,07 SP 0 69 031 0 43 corelapi PG-CL -0Д7 0,08 0 66 PG-SL -035 -0 47 0 35 i PC-CL -0,73 -0 79 -0 64 ; PC-SL -0,30 -0 76 -035 i PC-SC 0,02 0,28 0 42 ’ SP-CL 0 67 0 37 0 04 | SP-SL 0,81 0,88 0 44 SP-SC 0,63 0,32 0 40 PG-PC 0,78 0,37 -0 17 i PG-SP -0 75 -0 69 -039 uj prc ujprncjn гД sint date doua grupuri sociale A si B, caracterizate fiecare prin citc trei variaoiie Vp  ‘2 si Vr Pe fiecare din grupurile respective, variabilele se leaga diferit intre ele Spre exemplu: grupul A: Vt V2 V3 grupul B Vj v3 v2 in reprezentarea grafica de mai sus am considerat ca segmentele de dreapta care unesc vana bilele sint cu atit mai lungi cu cit variabilele sint mai "depanate0 intre ele respectiv ic corespunde un coeficient de corelatie mai mic Absenta unui segment de dreapta semnifica o corelatie de nivel zero intre acele variabile, in grupul A, corelatia cea mai puternica este intre variabilele V2 - V3 (segmentul de dreapta fiind direct proportional cu valoarea 1 - i ru i respectiv cu diferenta dintre 1 si valoarea absoluta a coeficientului de corelatie, considerat deci fara semn, ca modul) in acelasi grup r,3= 0, iar r12 > ru Graficul pentru grupul В descrie o structura cu caracteristicile r12=0, rl3>ra Evident, structurile pot fi mult mai complexe, chiar cu trei variabile Daca se mareste numarul de variabile, atunci si relatiile dintre acestea pot deveni foarte complexe Daca vrem sa comparam intre ele mai mult de doua grupuri (caracterizate fiecare prin n variabile), din punct de vedere al similaritatii structurilor lor specifice, simpla reprezentare grafica cu greu ne mai poate fi dc folos in astfel de cazuri se procedeaza la o descompunere a structurii in relatiile din care aceasta este constituita Fiecarei relatii ii putem asocia circ un coeficient de corelatie daca perechea corespunzatoare este formala din variabile cantitative Pentru fiecare grup vom obtine deci o serie de coeficienti dc corelatie corespunzatoare tuturor perechilor de variabile sau acelor perechi pe care vrem sa le analizam in mod special Cu cit doua grupuri sint mai asemanatoare intre ele din punct de vedere al modului in care se structureaza variabilele, cu atit corelatia dintre seriile dc coeficienti de corelatie specifice fiecarui grup va fi mai intensa, mai apropiata de 41 Daca structurile respective sint complet diferite, atunci coeficientul de corelatie va fi foarte apropiat dc 0 in situatiile in care seriile dc coeficienti dc corelatie ar avea valori absolute egale pentru aceeasi pereche dar dc semn diferit, atunci, cele doua structuri ar putea fi considerate ca "opuse** iar coeficientul dc corelatie dintre ele ar avea o valoare foarte apropiata dc -1 iata deci, ca doua structuri oricit de diferite intre ele pot fi comparate cu ajutorul unei masun atit dc simple precum coeficientul de corelatie, cu conditia ca variabilele care le caracterizeaza sa fie aceleasi si dc natura canulauvl Pentru ilustrarea utilitatii acestui tip de analiza, vom compara intre ele cele trei regiuni istorico geografice Transilvania-Crisana-Maramures Moldova si Muntenia-Oltenia din punct dc vedere al similitudinii structurilor de locuire Variabilele prin care descriem o astfel de structura sint cele prezentate in tabelul 2 5 3 : camera locuinta suprafata locuibila pe locuinta, suprafata locuibila pe camera, persoane pe gospodarie, persoane pe camera si suprafata locuibila pe persoana 72 Numara! total de corelatii intre aceste 6 variabile este de (6 x 5) 2 =15 (Am exclus corelatiile fiecarei variabile cu ea insasi, egale cu 1) Pentru fiecare pereche i si j de variabile, r =r* Nu am retinut decit o singura valoare pentru fiecare pereche de variabile, respectiv r) Fiecare structura de locuire am caracterizat-o insa numai prin 10 coeficienti de corelatie, pe care i-am considerat a fi de maxima relevanta teoretica pentru respectivele structuri Acestia sint prezentati, pentru toate cele trei grupuri de judete, in tabelul 2 5 3 Dispunem deci de trei serii de coeficienti de corelatie Calculind corelatiile dintre aceste serii rezulta urmatoarele valori: r = 0,882 pentru perechea Transilvania-Moldova, r = 0,685 pentru pereche Mokiova-Muntenia si г = 0398 pentru perechea Transilvania-Muntenia (Reamintim ca fiecare grupare dc judete am desemnat-o cu numele provinciei istorice, cu numarul dominant de judete in cadrul acelei grupe) Pe baza acestor valori, folosind regulile de interpretare pe care le-am mentionat, pot fi formulate urmatoarele ipoteze (cu grad ridicat de validare, deja):   similitudinea maxima se inregistreaza intre structurile de locuire din Moldova si Transilvania; - gruparea de judete din Muntenia si Oltenia are un grad ridicat de specificitate a structurilor de locuire, manifestat prin valorile reduse ale coeficientilor dc corelatie care reflecta specificitatea lor fata dc gruparile Moldova si Transilvania; - "apropierea** maxima a structurii de locuire din Muntenia este realizata in raport cu cea din Moldova Daca admitem ca similitudinile de structura sint un reflex al unor complexe procese de comunicare sociala, desfasurate pe durate mari de timp, atunci din cele de mai sus poate fi derivata ipoteza ca procesele de comunicare sociala cu influenta asupra structurilor de locuire s-au desfasurat, in ordinea descrescinda a intensitatii lor intre perechile Transilvania-Moldova, Moldova-Muntenia, Muntenia-Transilvania 2 6 SELECtiA VARiABiLELOR iN MODELELE DE REGRESiE Odata precizate conditiile de aplicare a analizei de regresie, testele de semnificatie si tipurile de rezultate care ii sint specifice, pot fi intelese mai usor principiile si structurile in baza carora este indicat sa se realizeze constructia modelului de regresie Procesul de construire a unui astfel dc model, incepe cu specificarea modelului teoretic Faza urmatoare este cea a operationalizarii constructiilor teoretice, a transformarii lor in indicatori, variabile masurabile in functie de exigente derivate din modelul teoretic, de datele empirice disponibile si dc exigente statistice ale analizei de regresie, se trece la construirea unor modele empirice Din compararea performantelor lor (coeficienti de determinatie multipla, erori standard de estimare, erori standard ale coeficientilor de regresie ctc ) rezulta "cel mai bun model empiric** Cel mai bun are sensul de "adecvat in cea mai mare masura modelului teoretic** si "optim din punct de vedere al exigentelor statistice ale metodei** 73 Selectia variabilelor pentru ecuatia de regresie este, poate, cea mai importanta secventa din intreaga analiza in continuare vom prezenta unele principii si procedee de realizare a ei Toate acestea sint insa orientative Stadiul actual de cunoastere a modalitatilor dc lucru in acest domeniu este mai mult de domeniul artei decit al stiintei in momentul aplicarii analizei de regresie, cercetatorul dispune de valori pentru un set dc variabile masurabile care descriu variabilele modelului teoretic (mai mult sau mai pupn structurat, de la o situatie la alta) Dc obicei, alegerea variabilei dependente pune mai putine probleme, ea fiind dictata in buna masura de cerinte ale modelului teoretic Restrictia cea mai importanta care trebuie respectata in alegerea variabilei dependente, atunci cind se lucreaza cu analiza de regresie obisnuita (bazata pe metoda celor mai mici patrate) este ca variabila respectiva sa fie masurata cei putin la nivel ordinal, deci pe o scala ordinala, de intervale sau de proportii iar scala sa contina cel putin trei trepte (Reamintim ca in primul tip de scala intervalele intre valorile de scala sint inegale iar in ultimele doua tipuri dc scala acestea sint egale in plus, scala dc proportii este caracterizata si prin existenta unui punct zero absolut) •Pentru cazurile in care variabila dependenta este de tip nominal sau are numai doua valori (indiferent de nivelul de masurare) se folosesc analizele de tip probit sau logit " in alegerea variabilelor independente se urmareste: -specificarea corecta a modelului prin luarea in consideratie a tuturor variabilelor masurabile relevante pentru modelul conceptual si numai a acestora; -maximizarea capacitatii explicative sau predictive a modelului; - evitarea efectului de multicolinearitate datorata unei interdependente mari intre aceste variabile Gradul cel mai ridicat de standardizare il au procedeele care urmaresc maximi* zarea capacitatii explicative a modelului dc regresie: selectia progresiva (foreward scleciion), selectia regresiva (backward selcction) si cea "pas cu pas" (stcpwise) (M NonEis, 1985 : 45-48) Specificarea corecta si evitarea multicolincari tatii sint obiective mai greu de realizat prin proceduri strict standardizate desi au fost elaborate o serie de teste si in acest domeniu al analizei Selectia progresiva Se realizeaza in urmatorii pasi: 1 Se calculeaza matricea coeficientilor dc corelatie dintre variabila dependenta (y) si toate cele n variabile independente candidat pentru includere in model (x ); 2 se retine ca prima variabila independenta in model (xt) cea care are coeficientul de corelatie maxim cu у si care, in plus, arc o valoare semnificativa pentru testul F (vezi 2 4 4 ) pentru o probabilitate data Daca nu exista nici o variabila x , care sa satisfaca aceasta conditie de intrare atunci nu se construieste un model de regresie cu niciuna din variabilele independente din setul dat; 74 ’ 3 se construiesc (n-l) modele de regresie cu cie doua variabile independente, respectiv cu x1 si cu fiecare din variabilele ("candidat") inca neincluse definitiv in model si se calculeaza testul F pentru fiecare variabila candidat; 4 se exclud cele pentru care F este nesemnificativ sau care au un coeficient beta cu semn schimbat fata de coeficientul de corelatie rn , fara sens din punct de vedere logic (Aceasta ultima conditie este impusa de principiul noncoliniaritatii Ea nu face parte din setul de conditii standard ale selectiei progresive Totusi, am adaugat-o pentru ca fara respectarea ei sau a altor reguli asociate pe care le vom mentiona in paragraful referitor la multicoliniaritate se pot obtine artefacte statistice" solutii generatoare de confuzii" inconsistente etc ); 5 dintre variabilele candidat ramase se selecteaza in model cea care are corelatia partiala maxima cu y, tinind sub control variabila x( inclusa deja definitiv in locul corelatiei partiale poate fi folosit drept criteriu de admitere in model determinatia partiala dintre o variabila candidat si y, tinind sub control pe xr in urma acestei operatii ramin (n-2) variabile candidat; 6 cea de a treia variabila independenta care se include in model este selectata pe baza examinarii a (n-2) modele de regresie cu cite trei variabile fiecare, dintre care doua sint X; si xr Fiecare din cele (n-2) variabile candidat este examinata conform criteriilor mentionate la pasii 4 si 5 Selectia se incheie fie atunci cind nu se mai inregistreaza noi candidati cu F partial semnificativ, fie cind s-au epuizat toate variabilele independente Exemplul 2 6 1 Atit suprafata locuibila pe persoana (la care ne-am referit in aplicatia de la 2 5 ) cit si numarul de persoane pe camera (exemplul 1 4 ) sint expresii partiale ale densitatii de locuire in vederea caracterizarii complexe a densitatii dc locuire in locuinte am construit un indice sintetic al densitatii de locuire (iSDL): iSDL= - P G P’G л — - —— unde S L CSL L-numar locuinte C - numar camere pentru cele L locuinte S - suprafata locuibila pentru totalul de L locuinte G - numar gospodarii in cele L locuinte Cu cit indicele respectiv este mai mare, cu atit densitatea medie in locuintele din teritoriul de referinta este mai mare Problema pe care ne-o punem este de a gasi cei mai buni predictori pentru acest indice sintetic Accentuam asupra faptului ca modelul de regresie pe care il elaboram nu are un scop explicativ - ce determina variatia densitatii? - ci unul strict predictiv in absenta unora din elementele cu care se construieste iSDL, care sint variabilele cu ajutorul carora poate fi estimata sau prognozata valoarea sa pentru o situatie data? Aceasta este problema careia incearca sa-i raspunda modelul de regresie pe care il prezentam cu ilustrare la modelul de selectie progresiva a variabilelor 75 in afara celor trei indici cantitativi ai iSDL, respectiv P C, P S, G L, pot candida ia statutul de prcdictori ai densitatii de locuire si: C L - numarul de camere pe locuinta S L - suprafata locuibila pe locuinta P G- numarul de persoane pe gospodarie in total sint deci 6 variabile independente posibile in raport cu iSDL Selectia progresiva a celor care urmeaza sa intre in modelul de regresie va fi facut conform pasilor descrisi anterior Pasul 1 Construirea matricei de corelatii in care sint implicati toti cei 6 + 1 = 7 indicatori (tabel 2 6 1 ) Tabel 2 6 1 MATRiCEA DE CORELAtiE iNTRE iNDiCATORii iMPLiCAti iN ESTiMAREA DENSiTatii DE LOCUiRE Variabile independente Variabile dependent iSLD P C P S G L C L P G S L P C 1 00 0 19 0,23 -0,89 0,01 -0,10 0 84 P S 0 19 1,00 0,19 0,10 0,56 -0,74 0,63 G L 0,23 0,19 1,00 -0,01 -0,27 0 17 0,50 C L -0,89 0,10 -0,01 1 00 0,33 0,13 -0 58 P G 0,01 0,56 -0 27 0,33 1,00 -0,10 0,18 S L -0,10 -0 74 0,17 0,13 -0,10 1,00 -0,38 Pasul 2 Variabila care coreleaza cel mai puternic cu iSDL este numarul de persoane pe camera (P C), r = 0,84 in consecinta, P C este primul candidat pentru ecuatia de regresie Nivelul dc semnificatie pc care il stabilim pentru acceptarea unei variabile in model este probabilitatea p = 0,05 Daca p > 0,05 atunci variabila-candidat va fi respinsa la "examenul** dc acceptare ca predictor (Reamintim ca numarul gradelor de libertate pentru care se cauta valoarea tabelara a testului F este dat de p - numarul de variabile independente in model si de (N - p - 1), unde N este numarul de unitati de analiza) Pentru exemplul dat Fclkulil = 760 iar FteMttk pentru 1 si (39 - 1 - 1 = 37) grade dc libertate si probabilitatea 0,05, este de 4,11 Deoarece F>F, variabila P C este retinuta in modelul de regresie Pasul 3 Se construiesc modele de regresie cu cite 2 variabile independente, una din acestea fiind P C, iar cealalta o variabila candidat: variabila "candidat*4 x coehcient de determinatie partiala corespunzator variabilei nivel dc semnificatie pentru lestul F bclay^ P S 0,31 0 01 0 63 0,49 G L 0 16 0,01 0 50 0 33 C L 0,45 0,01 -0,58 0 78 P G 0,03 0 01 0 18 0,17 S L 0,11 0,01 -0,38 -0 30 76 i Pentru toale cele cinci variabile, testul F este semnificativ, nivelul de semnificatie fiind mai mic de 0,05 Din perspectiva acestui test, deci, nu este respins nici unul dintre candidapi pentru modelul de regresie final Cel mai mare coeficient de determinatie partiali se inregistreaza la variabila C L Conform regulii mentionate, aceasta ar urma sa fie cel de-al doilea predictor in modelul de regresie Un prim semn de intrebare asupra oportunitatii unei astfel de decizii apare datorita diferentei dintre semnul coeficientului beta, corespunzator acestei variabile (0,78) si semnul coeficientului de corelatie dintre у si CL (r s -0,58) Conform acestui ultim coeficient, cu cit locuinta medie este mai mare sub aspectul numarului de camere, cu atit densitatea de locuire este mai mica Acelasi este si sensul logic asteptat pentru relatia respectiva Coeficientul beta indica insa un sens pozitiv pentru aceeasi relatie Greu de crezut ca atunci cind creste marimea medie a locuintei creste si densitatea complexa, chiar in conditiile in care se tine sub control numarul de persoane pe camera Schimbarea de semn de la coeficientul de corelatie la beta o consideram a fi un efect clar al multicoliniaritatii care a afectat modelul de regresie respectiv Unul dintre semnele statistice ale situatiei de multicoiiniaritate este prezenta unei corelatii de nivel foarte mare intre doua variabile independente si a unei corelatii medii inalte a acestora cu variabila dependenta (Parker, Smith, 1984 : 804—805) Or exact acesta este cazul modelului de regresie format din P C si C L cu variabile independente si iSDL ca variabile dependente: corelatia intre predictori este r = 0,89 iar media corelarii fiecaruia cu iSDL este de 0,69 (medie realizata pornind de la insumarea valorilor absolute ale coeficientilor respectivi) in consecinta, in baza principiului de evitare a multicoliniaritatii, excludem din analiza variabila C L Variabila cu coeficientul de determinatie cel mai mare, dupa aceasta excludere, ramine P S (d = 0,31) Aceasta va fi retinuta deci ca al doilea membru al setului de variabile independente in modelul de regresie al indicelui sintetic al densitatii de locuire Pasul 4 Se construiesc trei modele de regresie fiecare cu cite trei variabile independente (P C, P S, G L), (P C P S, P G) si (P C P S S L) in toate apar deci P C si P S Fiecare dintre ele contine cile o variabila candidat: variabila candidai x determinatie partiali (d ) Nivel de semnificatie pentru F betay>( G L 0,13 0 01 0,50 0 26 P 0 0,03 0,01 0 18 -0,15 S L 0 05 0 05 -035 0 14 in functie de valoarea maxima din seria coeficientului de determinatie, retinem in modelul de regresie si indicele G L Din cei sase candidati pentru setul de variabile independente (vezi tabel 2 6 1 ), au fost admisi pina acum trei - P C P S si G L Toti acestia sint indici cantitativi ai indicelui sintetic al densitatii de locuire Au ramas de reexaminat numai doi candidati (P G si S L) pentru ca unul a fost eliminat la pasul 3 datorita efectului de multicoiiniaritate pe care il genera (indice C L) 77 Pasul 5 Pentru a decide in legatura cu P G si S L se construiesc doua modele de regresie cu (P C, P S, G L, Р G) si (P C, P S, G L S L) Situatia celor doi candidati in aceste modele este: d i nivel de semnificatie r""i betAyi P G 0 0036 mai mare de 0 05 0,18 -0 02 S L 0 002 mai mare de 0,05 -0,38 0,04 Deoarece pentru nici una din cele doua variabile testul F partial nu este semnificativ la nivelul 5%, acestea nu se includ in ecuatia de regresie Modelul de regresie obtinut pentru predic ti a indicelui sintetic al densitatii de locuire in urma acestei selectii progresive este caracterizat prin urmatorii parametrii: Predictori regresie partiala beta determinare partiala elasticitate indicele importantei de nivel P C 0 12 0 69 0,58 1,00 0,18 P S 0 02 0 45 0 29 0 97 0,19 G L 0,19 0,26 0,13 1 12 0Д0 RJ = 0,99 R = 1 00 termen liber regresie = -0,391 Valoarea foarte mare a determinatiei multiple este legata tocmai de faptul ca in acest caz am analizat un indice complex prin intermediul partilor sale componente Contributia cea mai importanta la explicarea variatiei interjudetene a indicelui sintetic al densitatii de locuire o arc variabila persone pe camera (cu d = 0,58 si b* = 0,69) La explicarea nivelului mediu al indicelui sintetic al densitatii de locuire toate cele trei variabile independente au o contributie relativ egala (vezi indicele importantei dc nivel si coeficientul de elasticitate) Mai mare pare sa fie aportul indicelui gospodarii pc locuinta lata cum variaza relatia dintre iSDL si componentele sale in teritoriu: coeficienti b( beta importanta de nivel P C P S G L P C P S G L P C P S G L total judete   12 •02 • 19 •69 •45 •26 •18 • 19 •20 Transilvania + Banat > Crisana — Maramures -12 •02  17 •52  54 •21 • •20   19 • 18 Muntenia + Oltenia • 12 •02 • 17 47 •41 •35 •17 • 18 • 18 Muntenia + Oltenia   Dobrogea + Moldova • 12 >02 •17 -50  37 •27 •17 • 18 • 18 ?8 ' Coeficientii de regresie partiala, in concordanta со definirea lor, de masura a importantei teoretice, relativ independenta de lotul pe care se face analiza, variaza foarte putin, in schimb, coeficientii beta cunosc o variatie considerabila Valorile lor par sa sugereze ca variatia interjudeteana a indicelui complex al densitatii de locuire este dependenta mai mult de cea a numarului de persoane pe camera in Muntenia-Oltenia si de cea a suprafetei locuibile pe persoana in judetele intracarpatice Eliminarea regresiva a variabilelor este un procedeu opus selectiei progresive in constructia modelelor de regresie Se porneste cu intreg setul de variabile independente care candideaza pentru modelul respectiv in functie de un criteriu de eliminare se procedeaza la reducerea numarului de variabile independente retinute in ecuatie • Criteriul de eliminare este nivelul de semnificatie pentru testul F partial Variabilele pentru care probabilitatea corespunzatoare lui F este mai mare de un prag ales (0,10 sau, si mai sigur 0,05) sint eliminate Coeficientii ecuatiei de regresie se recalculeaza dupa fiecare serie de eliminari si se reexamineaza in functie de aceiasi criteriu Procesul se incheie atunci cind toate variabilele din model au un test F semnificativ in raport cu nivelul de probabilitate ales Selectia pas cu pas este o imbinare a selectiei progresive cu cea regresiva Primele doua variabile independente se includ in model urmind aceeasi cale ca in selectia progresiva Ulterior, prima variabila inclusa in model se reexamineaza conform criteriului de eliminare de la selectia regresiva Daca satisface conditia respectiva, este mentinuta in model Daca nivelul de probabilitate pentru F este mai mare decit pragul ales, atunci este eliminata Procesul continua cu selectarea variabilei independente care arc F semnificativ si valoarea maxima a corelatiei partiale cu variabila dependenta Dupa fiecare includere in model se reexamineaxa variabilele retinute din perspectiva criteriului de eliminare regresiva Toate cele trei tipuri de selectii la care ne-am referit - progresiva, regresiva si pas cu pas - sint orientate spre maximizarea explicatiei variabilei dependente Clauza suplimentara pe care am introdus-o la selectia progresiva in legatura cu raportul dintre semnul corelatiei si cei al coeficientului beta este menita sa orienteze atentia cercetatorului si in sensul evitarii multicoliniaritatit Regula triunghiului in absenta facilitatilor dc calcul automat, cele trei tipuri de selectie anterior mentionate nu pot fi practicate in astfel de cazuri poate fi utila o regula mai simpla de selectie - regula triunghiului Pasul J Procesul de selectie incepe, ca si in selectia progresiva, cu identificarea variabilei independente (variabila 2) care coreleaza cel mai puternic si semnificativ cu i cea dependenta (variabila 1) Pentru ilustrare vom folosi matricea coeficientilor de corelatie din tabelul 2 6 1 Conform regulii mentionate retinem in model variabila R С deoarece corelatia ei cu variabila dependenta iSDL este maxima in scria respectiva (coloana 7 a tabelului 2 6 1 ) 79 Pasul 2 Sc exclud din scria de candidati pentru ecuatia de regresie toate variabilele care coreleaza mai puternic cu   (P C) decit cu у (iSDL) in baza acestui criteriu este exclusa variabila C L in diagrama de mai jos sint figurate relatiile dintre cele trei variabile: C L -0,89 P L 1 iSDL Deorece i rn i > i г1Э i, variabila 3 este respinsa din seria candidatilor pentru ecuatia de regresie in genere, daca x4 este o variabila acceptata in modelul de regresie, atunci variabila x este admisa in model daca ’ i r>ii| к i ryin si daca i i S L-, d^tiircrv coreleaza mai puternic cu P S decit cu iSDL Procesul de includere-eliminare continui pina clnd s-a luat o decizie in ltgaiui-л cu toate variabilele independente care ar fi putut, in mod logic, sa faca pane -lin ecuatia de regresie in exemplul nostru, procesul se incheie cu includerea variabilei G L, singt1 r legatura cu care nu fusese luata o decizie in pasii anteriori Selectia bazata pe regula triunghiului a dus, deci, la o aceeasi specificare a modc-ului de regresie si in selectia progresiva Rezultatul nu va Гі acelasi in toate cazurile in care se folosesc ambele metode in afara simplitatii evidente a regulii triunghiului, ar fi de mentionat si capacr л c sporita de evitare a efectului de multicoliniaritate (pentru ca variabilele independente sur astfel selectate ineit sa fie cit mai putin dependente intre ele) Un dezavantaj al regulii triunghiului este ca, chiar in forma ei slaba, este uneor ;*ea restrictiva ducihd la saracirea excesiva a modelului de regresie "Completitudinea logica a acestui model, specificarea sa corecta este la fel de importanta ca fi evitarea multicoliniaritatii sau ca si maximizarea capacitatii sale explicative Tocmai pentru a realiza o astfel de specificare sini situatii in care regula triunghiului este bine sa nu fie respectata Daca o variabila independenta este necesara in model, pentrji a-i asigura specificarea corecta, dar coreleaza mai puternic cu o alta variabila independenta (deja retinuta pentru ecuatia de regresie) decit cu y, atunci ea poate fi admisa in model cu conditia ca legatura dintre cele doua variabile independente sa nu fie foarte puternica si corelarea lor medie cu у sa nu fie, de asemenea, mare (Pragul dincolo de care o corelatie este mare sau foarte mare nu se poate stabili decit in raport cu volumul esantionului pe care se face analiza, si al valorii majoritare din matricea de corelatii Pentru un esantion mic de 30 de unitati, corelatia de 0,80, spre exemplu, poai-fi una normala Daca esantionul este de ordinul sutelor de unitati, atunci aceeasi corelatie poatefi considerata de nivel ridicat Un termen de referinta util in aprecierea unei corelatii ca fiind foarte mare il constituie nivelul critic al coeficientului de corelatie Acesta poate fi determinat cu formula 13 6 Teste foarte sigure pentru a identifica prezenta multicoliniaritatii nu exista Teste precum cele elaborate de Haitovsky sau de Farror si Glauher au dezavantajul ca nu iau in consideratie si relatiile dintre variabilele suspecte de coliniaritate si variabila dependenta (Parker, Smith, 1984:805) Prezenta coliniaritatii duce la marirea erorii standard a coeficientului de regresie si, implicit la reducerea valorii testelor de semnificatie corespunzatoare lor Din acest motiv este posibil ca influente semnificative intr-un model neafectal de coliniaritate sa fie considerate nesemnificative in modelele care sint grevate de aceasta " Procedeele de selectie a variabilelor independente sini orientative numai Constructia unui bun model de regresie nu poate fi realizata decit pnntr-un dialog permanent intre exigentele modelului teoretic si cele ale procedurilor statistice mentionate Daca o variabila este importanta din punct de vedere teoretic si daca scopul modelului de regresie 81 jjr e *- Jicu u intei si T - apartenep h grupa Transilvania - modelul de regresie al suprafetei loc ibile pe persoana devine: f SP = 8Д71 - 2J6MO + 0 27ML   0,1 ОТ Pentru comparatie reamintim si modelul cu numai doua variabile independente: • SP = 8,27 - 2,4iMG * 028ML Coeficientii de determinatie multipla, ajustati au aceeasi valoare in ambele cazuri: = 0 775) Eroarea standard a estimatiei (vezi formula 2 4 6 ) este de asemenea egala pentru cele doua modele, respectiv 0,231 Ambele sint deci, concordante cu datele includerea variabilei fictive in model nu sporeste gradul de adecvare a acestuia la date Modificarile produse in valoarea coeficientilor de regresie partiala pentru MG si ML sini neinsemnate Noul coeficient dc regresie, corespunzator variabilei fictive se poate citi astfel: trecerea de la judetele din arc ulextracarpatic la judete din interiorul arcului carpatic este insotita, in medie, de o crestere a suprafetei locuibile pe persoana cu 0,10nr (in conditiile mentinerii constante a celorlalte variabile independente) in acest model,) coeficien pi dc regresie partiala pentru cele doua grupari de judete sini presupusi a fi egali Or, din compararea modelelor calculate separat pentru cele doua zone (vezi M4 si M5 in tabelul 2 5 1 ) rezulta ca ipoteza respectiva nu este intemeiata Comparind intre ele modelele M4, M5 si M6 din tabelul 25 L pot & puse iii evidenta valentele lor specifice; Ecuatiile 4 si 5 calculate pentru fiecare dincete doua grupuri peimiicocnparaiea influentei diferentiate de la o grupare la alta a marimii gospodariei si a marimii locuintei asnp^i densitatii de ixuire Pe baza lor am putut aprecia ca marimea gospodariei are o influenta) mai puternica pentru judetele din grupa transilvaneana decit pentru celelalte in schimb, ecuatia Мб care include variabila fictiva permite1evaluarea influentei pc care o are apartenenta ia una din cele doua grupari asupra densitatii de locuire, in conditiile) tinerii sub control a marimii celorlalte variabile independente (marimea gospodariei si marimea locuintei) 82 Crisana-Maramures Pentru situatia opusi este de mentionai Moldova in baza acestei ipoteze, vom include variabila calitativa "regiune istorica** in modelul de regresie al natalitatii includerea se va face prin doua variabile fictive T - apartenenta orasului la zona TransUvania Banat-Crisana-Maramures i> MOLD - apartenenta orasului la regiunea istdnca Moldova Scalarea pentru fiecare din aceste variabile se face conform procedeului mentionat, notind cu 1 apartenenta orasului la respectiva zona sau cu 0 situatie de neapartenenta Orasul Chtj, spre exemplu, va primi scorul 1 pentro variabila T si 0 pentro MOLD Pentru iasi, notarea se va face cu 0 la T si cu 1 la MOLD Pitestiul in schimb va fi notat cn 0 pentru ambele variabile deoarece nu apartine nici gruparii Transilvania, nici Moldovei La fel se va itatltaipla cu toate orasele din Oltenia, Muntenia si Dobrogeacare vor fi notate, deci, cu 0 la ambele variabile Ultimele trei regiuni istorice le vom desemna in continuare, prescurtat, prin gruparea Muntenia ' Tot pentro "captarea** factorilor culturali, in model am inclus si un indicator al modernizarii culturale: TV - numarul de televizoare la 1000 locuitori in oras in anul 1985 ipoteza in baza careia am selectat acest indicator este ca televizorul, cu toata cultura de masa pe care o difuzeaza, este unul dintre semnele aderentei la valori de modernitate si urbanizare La rindul lor, acestea favorizeaza un comportament demografic diferit de cel traditional Este de asteptat, deci,ca orasele cu numar mare de televizoare la 1000locuitori sa fie caracterizate si prin nivel relativ redus al natalitatii (evident, respectind conditia "ceteris paribus** - toate celelalte conditii fiind egale) Numarul de televizoare nu este, deci, un factor ai natalitatii ci un indicator semnificativ pentru un complex de factori culturali cu influenta asupra respectivului fenomen Desigur, in ecuatia de regresie a ramas si imigrarea (iM), masurata prin numarul sosirilor in localitate in anul 1985, raportate la 1000 locuitori in functie de cele patru variabile independente mentionate, modelul de regresie multipla al natalitatii (NAT) pentru orasele mari se prezinta astfel: NAT= 15,24 + 0 33 iM +1 j08 MOLD-1 10T-0,01 TV R*= 0,88 in functie de p = 4 vanabile independente si de numarul de orase incluse in analiza, N=21, rezuha valoarea ajustata a coeficientului de determinatie multipla (conform foraiulei 2 4 3 ) R1 = 0,88- =0,85 Deci 85% din variatia natalitatii intre orase este explicata prin (in sensul de "este legata statistic cu**) migratie si factori culturali asociati cu regiunea istorica in care este localizat orasul si dotarea gospodariilor cu aparate TV Modelul unifactorial care lua in consideratie numai m igrarea ca variabila independenta explica 76% din variatia natalitatii Pe seama noilor variabile incluse in model se obtine o imbunatatire substantiala a explicatiei: un cistig de procente1 dat de diferenta (0Д5-О 76) x 100 * •" Concordanta superioara a modelului de regresie multipla cu datele fata de cei de regresie simpla, este sustinuta si de faptul ca eroarea standard a estimatiei (vezi formula 2 4 6 ) este mai mica in primul caz (S = 1,20) decit in cel de-al doilea (S = 1,61) Cu coeficienti beta, ecuatia de regresie de mai sus se acrie: , ; NAT=0^9iM>0 15MOLi>-0i18T-031TV J imigrareainorasesie,deci,foctorulcelmaiimportani,asociaxpozitivcunaia!itatea Factorii culturali semnificati prin regiunea istorica si dotarea cu aparate TV au o influenta mult mai mica asupra natalitatii Oricum, aceste influente re exercita ta sensul prevazut prin ipotezele anterior formulate: situarea orasului in Moldova favorizeaza cresterea natalitatii in schimb reducerea acesteia este favorizata prin localizarea in Transilvania si prin factori culturali asociaticu mass-media cultura de tip urban (indicatorul TV) in ansamblu, modelul de regresie sustine afirmatia ca factorii asociati cu compozitia sododemografica a populatiei au o mai mare influenta asupra natalitatii decft cei cuiturali Sau mai exact, un astfel de "raport de forte" ta influentarea natalitatii cm valabil pentru orasele mari din tara noastra la mijlocul anilor *80 Nu este exclus ca ta anii *90 influenta relativa a factorilor culturali sa fie ta crestere in conditiile in care toate orasele mari ar fi caracterizaieprin aceeasi rata de imigrare si prin acelasi numar de televizoare (la 1000 locuitori), natalitatea ar fi ta medie cu 1 08 mai mare in cele din Moldova decit ta cele situate ta gruparea Muntenia in aceleasi conditii, natalitatea din orasele gruparii Transilvania ar fi ta medie cu 1,10 mai mica decit cea a oraselor din gruparea de referinta Muntenia '   Pentru atace predictii asupra natalitatii cu ajutorul ecuatiilor de regresie mentionate, ar urma sa fie folosita una din urmatoarele trei ecuatii in functie de regiunea istorico* geografica ta care este situat orasul   ' * ' • - Pentru orase din Muntenia, Oltenia sau Dobrogea: NAT = 15,24+033iM -0 01TV Pentru orase din Moldova: NAT = 1632 + 0331M - 0 01TV (Valoarea 16,32 este rezultata din termenul liber al regresiei 15,24 la care se adauga rezultatul produsului 1,08 x 1) in cazul unui oras din gruparea Transilvani, ecuatia devine: NAT = 14,14 4* 033iM - 0 01TV (similar cu ecuatia anterioara, 14,14 a rezultat din 1534-10x1) ’ Astfel spus daca imigrarea si numarul de aparate TV la 1000 ixuitori ar avea valoarea zero, atunci, natalitatea ar fi ta medie* de: 1534 pentru orasele din Muntenia, Oltenia si Dobrogea; 16Д2 pentru cele din Moldova si - 14,14 in orasele din Transilvania, Banat si Crisana-Maramures 3 RELAtii iNTRE VARiABiLE MaSURATE ORDiNAL SAU NOMiNAL Am mentionat deja ta 1 3 2 si 2 6 ca modelele de corelatie si regresie sint aplicabile pe seturi de variabile masurate metric, adica pe scale care au intervale egale (cu sau fara un punct zero-absolut) in variante mai putin restrictive, mai tolerante, respectivele modele se pot aplica si pe variabile ordinale Nu insa si ta cazul celor nominale in cadrul acestui capitol vom prezenta citeva dintre cele mai utilizate procedee statistice pentru masurarea asocierii dintre variabilele! пот-metrice, nominale sau ordinale 85 3 1 ASOCiEREA VARiABiLELOR ORDiNALE 3 1 1 Coeficientii de corelatie a rangurilor si de coocordanfi fanguritt sint un sir de numere intregi consentrivn игр wnnifiril relatii atoMiafc-de lip unaimare** sau ,jnai mic** intre perechi de elemente,! fiind tocqtttttfl sігщщ *^ in teasitaicaasocieni sau concordat |ti intre siruri de ranguri diferite care se refera la acelasi set de obiecte constituie obiectivul masurarii prin coeficientii de corelatie a rangurilor   ' ’ ‘ Si presupunem d dorim Sa stim in ce masura concorda rangurile h matematica si fizica pentru un grup de i2 elevi:         > , Elevul Ranguri la matematici Ranguri la firicl D = (пвдші la matematici-ranguri la fizici) 4 1 2 • 10 -a ’ M ; 2 1 3 -2 > 4 3 10 9 , 1 1 4 4 12 -8 • •64 5 9 1 8 64 ; 6 3 6 -3 9  ; 7 12 2 10 100 i 8 5 7 -2 4 9 8 8 0 0 J 10 7 4 3 9 ; 11 6 ' 5 1 1 12 11 11 0 0 '1OTAL 320 Raspunsul referitor la gradul de concordanta intre cele doua serii de notari poate fi dat cu ajutorai fom>ulei)coeficientuiui de corelatie a rangurilor (ro), denumit si>  coeficientul SpearmanT)^ ’ - i 6 Z D" 1 и N(№-1) unde: D - diferenta dintre ran (3 1 1) e pereche pentru acelasi subiect pentru cele doua variabile; N - numarul de elemente in serie in exemplul ales p=t -6x320 = 0i2 12 x (12"-iy См РЙрагео valoare maiaproinatade l,cuatitconcordanta jhUerangurile-perechi este mai puternica Cu cit respectivul coeficient are o valoare mai apropiata de -L cii attf esie mai intensa neconcordanta dintre rangurile pereche Apropierea de zero semnifica, precum in cazul tofeiapet Bravais-Ptearson, o relatie independenta intre variabile in exemplul dat este evidenta tendinta ca elevii btmi la matematica sa nu fie buni si la fizica * 86 1 O problema special* ia calcularea coc Зсіеаіьіоі de cureiatie p -цлх it- ; 8, se foloseste reparatia t (Student): ’ t = p-V(n-2) ^(l-p2) Daca in tabelele cu repartitia Student, t calculat este mai mare decit t tabelar, pentru numarul de grade de libertate v = n - 2, atunci p este semnificativ diferii de zero | in primul exemplu cu concordanta dintre notele la fizica si cele btfl matematica tx-0,12 • 12-2  V (l -(-0,12)0 = 038 Pentru un nivel de semnificatie (probabilitate de eroare) de 5% si 10 grade 1,81), rezulta ca intre cele doua tipuri de notari nu exista o corelat semnificativ diferita de zero Se accepta, deci, ipoteza de nul a unei diferea; nesemnificative intre p = 0 si p = -0,12 Acelasi set de obiecte poate fi estimat din mai mult de doua puncte de vedef Г*? с5 donm da masuram gradul mediu de concordanta a mai mult de doua rangul folosim coeficientul de concordanta sau de intercorelare medie a rangurilor AceS nu este altceva decit media coefientilor Spearman pentru toate perechi de ordonari   Sa presupunem ca opt meseni sint ordonate de catre un judecator din puri de vedere al prestigiului (1), veniturilor (ii) si al efortului intelectual pc oft 88 П iupixa (Ш) Ordonarea acestor meserii in funcpe de criteriile respective je prezinta astfel: meseria i    П Ш * S ’s" A 1 3 1 5 25 8 2 1 2 5 25 C 3 2 5 10 100 D 4 4 4 12 144 В 5 6 3 14 196 F 6 5 6 17 289 G 7 8 7 22 484 H 8 7 8 23 529 Corelafiile Spearman intre cele trei combinatii posibile de ordonari sint tj s 0,88, fj = 0,90 iar r" m " 0,69 intercoreiarea medie a evaluarilor este, deci, (0,88 + 0,90 + 0,69)   3 = 0,82 Daca sint mai multe serii de ranguri, atunci calcularea coeficientului de concordant ca medie a corelatiilor de ranguri, devine greoaie Un procedeu mai simplu in astfel de cazuri este determinarea coeficientului de concordanta, direct din seriile de ranguri Pentru aceasta se calculeaza pentru fiecare unitate evaluata suma rangurilor S Spre exemplu, pentru prima dintre cele 8 meserii, S"l+3 + l"5 Dupa ridicare la patrat, cantitatile SJ se aduna pe total unitati intercoreiarea medie (p) se calculeaza astfel pornind de la aceste sume: x-i ( a (*N"2) 12 S" ) P k (a-l) Kendail, 1969:281): a) poate fi extins la corelatia partiala a rangurilor; b) semnificatia sa statistica este^ foarte usor de stabilit atunci cind se calculeaza la nivel de esantion (intre al te le eroarea sa standard este cunoscuta si pentru esantioane foarte mici, n lfi6 x ESx, rexulta ca respectivul coeficient este semnificativ Atit p cit si t pot fi aplicali la date masurate metric dupa ce acestea au  ost convertite in ranguri Corespunzator in locul cordafiei Brawds-Pearson se poate calcula corelasia rangurilor Avantajul acesteia din urma, in special ih varianta de calcul propusa de Spearman este rapiditatea cu care se poate calcula fiira calculator Corelatia rangurilor este de obicei mai mare decit cea Bravais-Pearson, determinata pentru aceleasi date in schimb, aceasta din urma masoara mai exact relafia dintre variabile 91 in calcularea coeficientilor p si i se face abstractie de faptul ca rangurile semnifica numai relatii de tipul "mai mare decit" sau jnai mic decit" Se opereaza cu rangurile ca si cum ar fi valori pe o scala de intervale Acest "artificiu de calcul" nu trebuie sa duca la concluzia ca pe baza corelatiilor rang se poate facet riguros vorbind, o predictie a relatiilor de ordine pe o variabila in functie de relatiile de ordine pe cea care ii ече asociata Cu ajutorul unui coeficient tf, similar in principiu cu coeficient tul de determinatie, nu se poate spune cit ta suta din ordinea de pe у poate fi explicata prin ordinea de pe x (Mueller, Schuessler, Cosiner, 1970:274) Corelatiile de rang pot fi considerate totusi ca indicatori, sau ca masuri imperfecte pentru predictia relatiilor de ordine din doua variabile diferite r 3 1 2 Coeficientul gama (f) ''     ' A) Din punct de vedere al educatiei, relatia poate fi de acelasi sens, educatia lui В este mai buna decit cea a lui A(B > A) Daca insa educatialui В este mai redusi decit cea a lui A, atunci perechea respectivi are o ordonare invers! pe cete doua variabile in fine, daci A ti В au acelasi nivel de educatie, se cheama ci perechea este Jegata" (prin analogie cu notiunea de ranguri legate prezentati in subcapitolul anterior) Toate perechile formale cu elemente din aceeasi celula sau din celule diferite de pe aceeasi linie sau de pe aceeasi coloana rint Jegate" Regula practici pentru a determina toate perechile congruente posibile este urmatoarea: se млш  е;ге frecventa celulei de гфгйцй см suma frecventelor din toate celulele oftate sub ea fi la dreapta Se incepe cu celula din partea stinga - sus a tabelului de contingenta daca variabilele sfiit ordonate de la sthiga la dreapta pentru cea de coloana, si de sus in jos pentru cea de linie O persoana din celula nu, respectiv "nesatisflfcut" cu maximum 8 clase poate forma o pereche congruenta cu oricare dintre persoanele situate in celulele n^, na, nM, n,r n", n* (primul indice semnifica linia iar cel de-al doilea coloana) Pe total tabel numarul de perechi congruente nceste; n =22(137+374+194+66 Frecvente obaarvata sl teoretice Satisfactia fata de locuinta opt clase 9-10 clase liceu universitate total nesatisfacut 22 60 8 42 47 9 150 1323 92 643 306 satisfacut 161 172,1 137 135,6 374 3763 194 182 1 866 foarte satisfacut 128 78,1 66 613 156 170,8 43 82,6 393 Total 311 245 680 329 1565 Aplicind formula 32 4 , rezulta: (22-60,8? (42-473? (43 -82 6? X x* , respinge ipoteza de nul care sustine independenta dintre nivelul de instructie si satisfactie fata de locuinta, cu o probabilitate de eroare de 5%, in favoarea ipotezei alternative a asocierii semnificative a celor doua variabile O formula mai simpla pentru determinarea valorii x* este cea care nu mai implica si calcularea explicita a frecventelor teoretice - ) 3 2 5 unde L—frecventa celulara pe liniai si coloana j f -frecventa marginala pe liniai f- frecventa marginala pe coloana] N-totalul tabelar ion t Deci, ca dalele din exemplul anterior 311x306 245 x 306 -2—Л 329x393 ' = 1565 (1,0598-1) = 93,60 Aplicarea testului XiQQ implica alte conditii dedl ca esantionul din care rezulti distributia tabelari sa fie selectat aleatoriu iar frecventele celulare teoretice sa nu fie foarte mici (mai mici de 5 sau 10) Atunci cfiad apar astfel de frecvente, se procedeaza la regruparea liniilor sau coloanelor, in masura in care au sens astfel de regrupari sub aspect logic De asemenea, mai trebuie retinut ca testul X1 к aplica numai cifrelor absolute, nu si celor relative O transformare a lui x3 prin care se obtine o masura a intensitatii asocierii este coeficientului de contingenta a) lui Pearson C, cu variatie intre zero (independenta) si o valoare maxima apropiata de unu, variind insa in functie de tipul de tabel 3 2 6 unde N - totalul general al tabelului Cu datele din exemplul anterior, asocierea dintre nivelul de instructie si gradul de satisfactie poate fi estimata ca avind intensitatea: z te Se cunosc valorile maxime posibile ale lui C pentru tabelele de contingenta in care numarul de linii este egal cu cel de coloane dar nu si pentru cele rectangulare, cu numar de linii diferit de cel al coloanelor tipul de tabel (numar linii x numar coloane) 2x2 3x3 4x4 5x5 6x6 7x7 8x8 9x9 10x10 C 0 707 0,816 0 866 0,894 0,913 0 926 0,935 0,943 0 942 (Sursa: Yeomans 1968, voi П:293) Din aceasta variatie a coeficientului de contingenta in functie de tipul de tabel rezulta ca are sens compararea valorilor sale pentru tabele de acelasi op Pentru a face comparabile valori ale lui C calculate pentru tabele patrate (in care numarul de linii este egal cu cel de coloane), diferite ca numar de celule se poate corecta valoarea obtinuta prin impartirea ei cu valoarea maxima 101 "Testarea concordantei Cu ajutorul aceluiasi test xf poate fi luate o decizie asupra concordantei dintre doua distributii Cel mai frecvent se pune problema de a testa normalitatea unei serii de date Pentru aceasta se considera ca frecvente observate cele din seria datelor empirice iar ca frecvente teoretice, frecventele calculate pornind de la media fi abaterea standard fi volumul total de frecvente din seria empirica, in ipoteza ca respectiva ar fi normata (Pentru modul concret de determinare a frecventelor teoretice in acesta ipoteza, vezi anexai) Ca exemplu de calcul pentru x1 poate fi reluat exemplul din anexa 1 referitor la repartitia oraselor in functie de natalitate in Romania, in 1968 Aplicarea a inclus numai 230 din cele 236 de orase Au fost omise Bucurestiid si "5 orase mici din judetul Constanta Rata de natalitate pe oras f J 15 1-20 20 1-25 25Д-30 30,1-35 35Д-40 +-W • discribu|ia empirici а сгцекл* 15 47 79 70 15 4 • distributia twreticl a oraselor 59 43 34,39 Pentru estimarea concordantei dintre cele doua distributii se calculeaza %l dupa formula 32 4 : Yax (15-14Д1)* (47-48 09)* X 14,21 * 48 09 ’ 3^29 " 1O’M Numarul gradelor de libertate in functie de care se citeste valoarea tabelara a testului este egal cu numarul categoriilor variabilei, minus 1 in cazul de fata, pentru 5 grade de libertate, la nivelul de semnificatie de p = 0 051 x2 H,07 Valoarea calculata a testului x3 fiind mai mica decit cea tabelara, rezulta ca cele doua distributii nu difera semnificativ Astfel spus, cu o probabilitate de eroare de 5% se poate sustine ca distributia oraselor Romaniei in functie de natalitate, in 1968, era una normala Pe masura ce ne departam in timp de momentul de ruptura 1967-1970, aceeasi distributie tinde sa se departeze tot mai mult de forma normala, a 102 4 ANALiZA MULTiVARiATA CU VARiABiLE CALiTATiVE: MODELE LOG - LiNiARE 4 1 NOtiUNi DE BAZA Analizele cu iestul x2 permit acceptata sau respingerea ipotezei de independent! intre doua caracteristici puse in relatie prin tabelul de contingenta Diferiti coeficienti de asociere indici intensitatea relatiei dintre caracteristici calitative, in plus, inspectarea raportului dintre frecventele observate si cele teoretice ofera sugestii in legatura cu situatiile care contribuie cel mai mult ia manifestarea unei relatii semnificative intre variabile Pentru cititorul care este deja familiarizat atft cu analizele bazate pe testul x1 cit si cu cele referitoare la corelatie p regresie, este evident decalajul dintre aceste doua tipuri de analize asupra relatiilor statistice in cazul in care variabilele puse in relatie Sint de dp cantitativ, instrumentele de analiza sSnt mai rafinate, precizia poate fi mai mare, compararea modelelor teoretice cu cele empirice incluzand mai multe variabile, este mai usor de ftcuL in sociologic, mai ales, apar frecvent situatii de cercetare in care variabilele cu care se lucreaza sint de tip calitativ Categoria sociala, tipul de status social, tipul de comunitate locala, tipul de comportament etc riht astfel de variabile calitative, specifice analizei sociologice, dar greu de tratat in termenii obisnuip ai corelatiei ji ai regresiei in seria dezvoltarilor relativ recente de promovare a unei metodologii statistice, capabile sa asigure un nivel sporit de prelucrare a datelor de tip calitativ se inscriu si modelele log liniare (Dezvoltarea lor in anii "70 este legata in special de nume precum Leo Goodman, statistician ti sociolog in acelasi timp, Y M M Bishop, Mosteiier etc ) Denumirea lor marcheaza unul dintre elementele esentiale ale algoritmului de calcul care le este asociat frecventele celulare ale tabelelor de contingenta sau raporturile dintre acestea sint transformate prin logaritmate in cazul uneia din variantele de calcul (varianta aditiva care lucreaza cu coeficienti de tip a, modele "logjt** la care ne vom referi in cuprinsul capitolului) O prima caracteristica, specifica acestor modele consta in faptul ca sint orientate spre "explicarea** frecventelor sau a raporturilor dintre frecventele unui labe) de contingenta O astfel de orientare este, evident, contrastanta, fata de cea obisnuit! in analiza de regresie in cadrul acesteia, modelul statistic este astfel construit frett mai multe variabile independente sa explice variatia unei variabile dependente si nu o anume frecventa in pofida acestei diferente de "orientare**, modelele log-liniare au o structura analoga cu cea a modelelor de regresie Pentru ilustrare sa consideram distributia de mai jos in‘functie de doua caracteristici dihotomice, A cu valorile a sia si В cu valorile b si b 103     В b b a 40 60 A "a 90 20 130 80 100 по 210 * Spre exemplu, pentru explicarea frecventei fA = 40, modelul log-liniar adopta principiul dependentei acesteia de - media frecventelor celulare; - distributia caracteristicii A in functie de a si a caracteristicii В in functie de b si Б* (distributii marginale); * - efectul specific al interactiunii sau interdependentei dintre valorile a si b, ale caracteristicilor de clasificare Altfel spus, este de asteptat ca frecventa f^sa fie cu atit mai mare cu cit media frecventelor celulare este mai mare, proportia de cazuri in b este mai mare decit in 5 si proportia celor din a este mai mare fata de a Diferentele care apar intre frecventele celulare datorita distribapei inegale a valorilor unei anumite caracteristici din tabelul de contingenta sint puse pe seama "efectului principal'1 sau "al unei singure variabile*4 Astfel, datorita distribupei marginale a variabilei В (cu b s 130 si b = 80) ar fi de asteptat ca f^ sa fie mai mare decit Гу Deoarece situatia este exact inversa, fb = 40 fiind mai mica decit f^ = 60, inseamna ca asocierea sau interactiunea dintre A si В este de asa natura incit f tabelul 4 1,1 sansa conditionata pentro a fata de a, in cadrai categoriei b este 40 90 = 0,44 Vom spune, deci, ca sansa conditionata de (b) a tai (a) fata de (tfj este mai mica decit sansa marginala a lui (a) fata de (S) sansele conditionale se calculeaza deci ca raporturi de frecventa ale aceleiasi variabile, pentru o valoare data a altei variabile din tabelul de contingenta Pentru determinarea gradului de independenta dintre variabilele tabelului de contingenta, de mare utilitate este determinarea sansei relative (revative odds) Aceasta se calculeaza ca raport intre doua sanse conditionate ale aceleiasi variabile in acelasi tabel 4 1 1 , sansa relativa a lui (a) fata de (a) este data de (40 90)   (60 20) = 0,44 3 = 0,15 Ca cit sansa relativa are o wtioare mai diferita de 1, cu atit este mai puternica asocierea dintre carcateristicile tabelului de contingenja in general, deci intr-un tabel de tipul 2x 2: a b (a+b) c d (c+d) (a+c) (b*d) pot li determinate: - sanse marginale: (a + ЬУ(с + d) sau (c + d) (a + b), (a + сУ(Ь + d) sau (b + dy  (a + c), -sanse relative: (M:) (b d), (a b) (c d) etc Pentru explicarea frecventelor din acelasi tabel de contingenta pot fi adoptate modele diferite Daca variabilele in functie de care este construit tabelul sint considerate ca independente in raport cu frecare din frecventele tabelului, luate rind pe rind ca variabile dependente, atunci se folosesc modele log-liniare generale Daca uneia din variabilele dihotomice ale modului i se atribuie statutul de variabila dependenta, atunci pentro analiza se adopta modelele de tip logit Acestea din urma sint cele mai apropiate ca semnificatie de modelele obisnuite de regresie La rindul lor cele doua tipuri de modele pot fr saturate (nerestrictive) sau nesaturate (restrictive), dupa cum, includ sau nu includ in explicatie, toate variabilele constitutive ale tabelului de contingenta in fine, in cadrul modelelor nesaiurate, pot fr distinse cele ierarhice de cele neierarhice Un model este ierarhic daca variabilele implicate in interactiuni de un anume grad se regasesc in toate combinatiile posibile ale aceleiasi variabile, in interactiunile de grade inferioare Astfel, daca un model contine interactiuni de gradul trei intre variabilele ABC, obligatoriu vor include si interactiunile de grad inferior (АВ), (АС), (ВС) precum si efectele principale asociate cu AJB, si C Fara a fi singu- 105 rele acestea sint cele mai importante distincti! in functie de care se structureaza familia modelelor log-liniare Prezentam in continuare principalele probleme ale apbcani modelelor log-liniare 4 2 1 Modele log-liniare generale, nerestrictive Exemplul 4 2 1 Sa presupunem ca un lot de 117 localitati se distribuie astfel in functie de rata mortalitatii infantile (decese copii sub un an la 1000 nascup vii) ti de tipul de localitate: TaM42 1 Mortalitate* infantila fi tipul de localitate* • Raia mortalititii infantile (i) T"p de localitate (L) L mici (sub 25* *) Z medie (26-30* ^) 3 mare (peste 3Cty*) огче(О) 33 7 1 41 comune suburbane (S) 17 6 12 35 comune (C) 9 13 19 41 59 26 32 117 Cele doua carcalenstici puse in relatie prin tabelul de mai sus sint asociate in mod semnificativ (x1 " 31,84, semnificativ pentru p = OjOl) Dincolo de aceasM constatare urmeaza insa O intreaga serie de intrebari care au sens pentru cercetator care dintre tipurile de localitati influenteaza mai mult sau mai semnificativ distributia de frecventa din intermediul tabelului; care sint "punctele** sau combinatiile de valori dintre cele doua variabile, in care asocierea este mai puternica si semnificativa; cit din valoarea unei frecvente celulare date este influentata, de nivelul mediu al frecventelor celulare, de efectele principale ti cit de efectul de interactiune etc Pentru gasirea raspunsurilor la astfel de intrebari, printr-un model log-liniar general, va trebui sa parcurgem urmatoarea suita de calcule: * Pentru umplificarca prezentarii ti interpretarii, am considerai ci datele к refera la localitati Pentru cei interesati, atit de metoda de analiza cit ji de problema la care trimite tabelul, mentionam ca datele nu sint fictive ci se refera la distributia mortalitatii infantile, pe tipuri dc retele judetene de localitati, la nivelul anului 1985 0 retea judeteana de localitati am considerat cleste alcatuita din toate localitatile de aceltti tip (or ate, comune suburbane sau comune) d in oedrul unui judet Cititorii care nu sini interesati decit de metoda, dar nu ti de diferentierea mortalitatii infantile pe lipul de retele de localitati pot considera totuti ca acceptabila ipoteza existentei unui lot de 117 localitati care sa aiba carcaieristicile de mortalitate infantili ale celor 117 retele de localitati 106   1 transformarea valorii frecventelor celulare prin logaritmate со logaritmi naturali Spre exemplu, frecventa corespunzatoare valorii reduse a mortalitatii infantile pentru orase f01 = 33, devine, prin logaritmam 3,497 Chiar daca dispunem de ajutorul calculatorului nu strica insa rememorarea faptului ca logaritmul natural al unui numar nu este altceva decit puterea la care trebuie ridicat e " 2,718 pentru a obtine numarul respectiv, in exemplul dat, avem deci 2,718’4**   33) 2 Pentru fiecare linie si coloana a tabelului astfel transformat, se calculeaza media frecventelor celulare in urma acestor operatii, transformarea tabelului 4 2 1 va arata astfel: Tabel4 22 1Л 1 2 3 medii 0 3397 1346 0 1314 s 2333 1 792 2385 2370 c 2,197 2365 2344 2309 medii 2342 2,101 1310 3 Media generala a tabelului se determina prin insumarea tuturor valorilor logaritmate ale frecventelor celulare si impartirea la numarul celulelor in exemplu ales, media respectiva are valoarea ti = 2,251 4 Calcularea efectelor principale (marginale) corespunzatoare categoriilor fiecarei variabile Vom nota cu X L , efectul valorii oras a variabilei tip de localitate asupra distributiei de frecvente din tabel X  = media liniei о-ц= 1,814-2,251 = -0 437 Valoarea negativa a coeficientului X^ indica faptul ca in medie, frecventele celulare corespunzatoare liniei "orase* sint mai mici decit frecventa celulara medie din tabel in genera], efectul principal al categoriei j pentru variabila i, X ‘ se determina ca diferenta intre media frecventelor logaritmate corespunzatoare lui j si media generala a tabelului (ti) Daca X ' > 0, inseamna ca, in medie, frecventele celulare corespunzatoare liniei sau coloanei j din tabel sint mai mari decit media frecventelor din tabel Corespunzator acestui procedeu, efectele principale pentru exemplul de mai sus sint* xS -"из? xi °-591 xi 0 119 ХІ -°’150 Xt 0 318 X; -0’441 Suma efectelor principale corespunzatoare aceleiasi variabile este totdeauna egala cu 0 107 • ’' 5 pentru orice linie 1 si coloana к din tabelul de contingenta valoarea efectului de interac(iune pentru celula (lk) este egala cu log -(ti Xk + Xj) Asocierea sau "interactiunea** (in sens statistic) dintre nivelul redus al mortalitatii infantile si calitatea unei localitati de a fi oras este: X" > 3 497-(2,251 -0,437 +0 591) " 1,092 Pentru toate cele 6 frecvente celulare, efectele de interactiune au valorile: 1,092 к,,* -0,128 a-0363 X^= 0 282 X^= - 0 428 0 146 X^=-1373 0356 0316 Oricare dintre frecventele celulare logaritmate poate fi reconstituita in functie de media si efectele principale sf efectele de interactiune Astfel; , in (fo)   U   Xa + + X, = 2Д51 + 0,816 + 0318 - 0 441 ж 2,944 Efectul cei mai important asupra frecventei relative a comunelor cu mortalitate infantila ridicata este exercitat, deci, de asocierea pozitiva dintre calitatea localitatii de a fi comuna (si nu oras sau comuna suburbana) si nivelul ridicat al mortalitatii infantile 6 Pentru a putea recunoaste efectele semnificative din punct de vedere statistic, se procedeaza la o standardizare a tuturor coeficientilor X prin impartirea lor la eroarea standard estimata - Sx i ул" "-ii unde fc - frecventa in celula C, iar n - numarul de celule in tabelul de contingenta in exemplul pe care il folosim pentru ilustrare Prin devin: standardizare cu aceasta ultima valoare, coeficientii modelului log-liniar 239 0,82 2,18 4,05 1X>3 3J02 133 ^ = -9 41 X, = - 038 - 233 Xjj " 3 81 XQ = ^6,60 Хиа 1,00 XQ = 5,60 108 * in cazul esantioanelor шал, se consideri ci 1 standardizai este semnificativ mai mare decft 0 pentru о valoare mai mare de 1 9& Asocierea dintre orase st mortalitate ; infantila redusa esec, deci, semnificativi la nivelul p "= 0,05 in schimb, pentre cornu-^ nete suburbane si pentru comne se hnegisaeazl o asociere directa si afannificativa cu nivelai ridicate ale mortalitatii infantii^ Dintre efectele principale, semnificative sini numai ode referitoare la orase, comune, mortalitate maximi si minima • •   - - • ’ *•**  Exemplul 422 Pentru a ilustra modul de calcul intr-un tabel de contingent cu mai mult de doua intrari, vom dezvolta exemplul anterior, pornind de la ipoteza ca mortalitatea infantila este diferentiata nu numai h functie de tipul de localitati ci si de regiunea istorico-geografica de care acesta apartine Pentru zona istorico-geografica vom adopta distinctia dintre localitati situate in partea estica (EST) a tarii (in Moldova), in partea sudica (SUD) (Oltenia, Muntenia si Dobrogea) si in cea central-nord-vestica (CNV) (Transilvania, Crisana-Maramures -si Banat) in functie de cde trei variabile - tip de localitate, zona istorico-geografica si rara : mortalitatii infantile -cele 117 "localitati" (vezi nou de la tabelul 4 2 1 ) re distribuie astfel: ‘ = Tabel 422 MORTALiTATE MFANBLA, TU" DE LOCALiTATE sl ZONA BTDHCOCEOGRARCA Tip de localitate (L) Zona(Z) Moralitate infantili (i) (il)Sub25*  (12)26-30%, (13) peste 31%, (0) CENV = a 14 2 0 Orase in: SUD = b 12 4 1 EST=c 7 1 0 (S) CENV = a 9 4 1 Comune suburbane in: SUD = b 6 2 6 EST = c 2 0 5 5 (C) CENV = a 5 g 3 Comune in: SUD = b 3 4 10 EST = c 1 1 6 - - - 59 26 32 109 in determinarea coeficientilor se urmeaza aceiasi pasi ca si ia exemplul anurioc Tabel42 4 1 UXMRnMAREA FRECVENTELOR CELULARE 11 12 13 medii Oa 3639 0,693 -0693 0380 Ob 3485 1 386 0 1390 Oc 1346 0 -0,693 0 418 Sa 3197 1386 0 1J94 Sb 1,792 0,693 1,792 M26 Sc 0 693 -0393  ij609 0,536 Ca 1,609 3079 1399 1396 Cb 1099 * 1386 3303 1396 Cc 0 0 1 792 ; 0397 medii Ц6О7 0,770 OJOl j e •* • ii* -’г • i •   ' ’ v ‘f >? *Л 2 calculare valori medii ale frecventelor logaritmate pentru valoarea fiecarei variabile de clasificare si pentru toate combinatiile de cite doua variabile ale acestor -valori Media pentru orase (O), spre exemplu, se determina prin insumarea tuturor valorilor de pe liniile Oa, Ob, Oc si impartirea lor la 9 Rezulta media 0,863 ' - 3 Media generala a tabelului rezulta din insumarea frecventelor logaritmate din cele 27 de celule ale tabelului si impartirea acestei sume la 27 (tr= 1,0592) 4 Efectele principale se determina prin scaderea mediei generale din media spe^ cifica unei valori date a fiecareia dintre variabile Efectul principal al valorii orase a variabilei tip de localitate, spre exemplu, este dat de A, = 0,863 - 1,0592 = - 0,197 Similar se obtin toate efectele principale:  = -0,197 A = 0,164 A, 0,547 X, = - 0 007   = 0378 A," - 0389 0304  = - 0,542 А,ж-0358 5 interactiunile de ordinul doi se determina cu ajutorul frecventei logaritmate" asteptate, in ipoteza ca nu ar exista decit efecte principale in tabel Astfel, frecventa' asteptata pentru celula "comune - zona sudica* este egala cu p   Ac +   = 1 0592 * 0304 + 0 378 " 1 6412 Efectul de interactiune pentru aceeasi celula va rezulta prin scaderea valorii asteptate, anterior determinate din media corespunzatoare celulei respective, calculate la punctul 3: • Ац, = 1396-1 6412 = - 0,0452 110 + atb3 = - 1,059   0 204 + 0,378 - 0,258 - 0Д45 + 0,726 + 0,186 - 0,055 = 2,20 Frecventa logaritmata reprezentind numarul de comune cu mortalitate mare in zona sudica este 2 30 Diferenta de 10 sutimi fata de Y calculat provine din erori de rotunjire Valoarea ridicata a respectivei frecvente, peste media pe total tabel se explica, in principal, prin tendinta generala a comunelor de a avea o mortalitate infantila mare si prin situatia specifica a localitatilor care apartin de zona sudica a tarii in afara acestei utilitati de explicare a frecventelor celulare in functie de efecte principale si de interactiune, modelele logliniare generale pot fi folosite si pentru a spune ceva asupra relatiilor dintre o variabila si o valoare data a altei variabile Sa consideram relatia dintre regiunea istorica a, b sau c si valoarea mare a mortalitatii infantile Exista un pattem general de asociere intre regiunea istorica si mortalitatea infantila mare, dat de semnul coeficientilor lambda corespunzatori a b c -Л30 186 644 Deci mortalitatea infantila mare este asociata pozitiv cu apartenenta la Moldova si negativ cu apartenenta la Transilvania Daca se controleaza tipul de localitate (O S,C) atunci pattem-ul respoectiv se modifica Din listele de valori de mai sus vom retine numai semnele coeficientilor dambda • toUl OSC ' : ; * ; : e + - + + Rezulta ca numai ih cazul comunelor suburbane exista acelasi pattem de asociere ca in cazul general Nu este lipsit de interes sa retinem ca orasele sint cele care se abat cel mult de h acest pattem de asociere in cazul lor, mortalitatea infantfft mare - apare asociata pozitiv cs apartenenta la Transilvania si negativ cu apartenenta ia Moldova Este inca ш argument pentru faptul ca specificitatea culturala regionala o regasim mai mult й sau aecU ii orase ‘ r - 112 , 43 MODELE LOG4JMARE iERARHiCE :  л ' ' ' ‘   " '• Modelele log-liniare nerestrictive an dezavantajul de a nu fi "economice** Peutrii explicarea unei frecvente celulare sint implicate toate variabilele si interactiunile care definesc pozitiv acele celule in tabel Cu cit numarul de parametrii cu ajunand carora putem explica distributia de frecvente dintr-un tabel este mai mic cu atit se cheama cft modelul construit cu acei parametrii este mai economic Modelele restrictive in care anumip coeficienti lambda sint egalati cu zero, vizeaza tocmai sporirea economicitatii ^ "a •; Prezentam in continuare cazul io care, intre mteractiunile retinnte pentra ‘ explicarea frecventelor exista o ierarhie deplina: pentru toate interactiunile de un ordin dat exista toate combinatiile posibile de interactiuni de ordin inferior, formate cu variabilele din interactiunile de ordin superior '' Lucrurile vor deveni mai clare prin prezentarea unui exemplu Vom insista asupra logicii de analiza, detaliile tehnice fiind relativ complicate Ч7І? Exemplul 43 1 Sa presupunem ca ne intereseaza compozitia migratiei totale a tarii sub aspectul: * sexului-migrantilor, S: masculin M, feminin F; * distantei de desfasurare, D: in cadrul aceluiasi judet A sau intre judete diferite B; * tipului de migratie T: emigrare E sau imigrare i; * localitatii de referinta, L, respectiv locul de plecare pentru emigrare si cel de sosire pentru imigrare: comune C, comune suburbane S, orase O Tabel 4 3 1 Distributia migratiei fn functie de locditetee do referinta, emlgrareflmigrare, distanta de migrati  sl lax Romania 5 01 1977 mii LOCALiTATE TiP DE MiGRAtiE DiSTANtA A-aeelayi judet B-ak judet SEXUL MiGRAtiLOR masculin feminin rurali emigrare A 1284 1618 nrall emigrare В 1475 1493 rurali imigrare A 416 675 rurali imigrare В 321 369 suburbani emigrare A 35 44 suburbml emigrare В 30 31 suburbani imigrare A 51 64 suburbani imigrare В 69 68 urbani emigrare A 166 175 urbani emigrare В 437 476 urbani imigrare A 1018 1098 urbani imigrare В 1551* 1563 113 Dalele pe tare л folosim pentru exemplificare se refera la migrantii pe durata vietii, inregistrati la recensamantul din 1977 in Romania (persoane care la data respectiva aveau alt loc de domicilui stabil decit cel de nastere) Dintre multiplele modele posibile pentru explicarea distributiei de frecvente din tabelul 43 1 alegem, pentru exemplificarea modului de lucru, pe cel care nu are decit efecte principale si interactiuni de ordinul doi Un astfel de model poate fi denumit prin grupurile de variabile intre care admitem interactiuni (LT), (LD), (LS), (TD), (TS), (DS) Coeficientii lambda de ordinul trei si patru i-am considerat, egali cu zero Vom incerca, deci, explicarea frecventelor observate numai cu cele sase interactiuni de gradul doi pe care le-am mentionai si cu efectele principale ale celor patra variabile, L, T, D, S Pentru aceasta, trebuie calculate frecventele asteptate in baza modelului propus Exista mai multe metode de determinare a lor in cadrul programului de calcul adoptat am folosit-o pe cea iterativa propusa de Goodman in 1970 "Cu fiecare dintre perechile de variabile retinute in model se pot construi sub-tabele sau tabele marginale in exemplul ales vor fi deci sase astfel de tabele Frecventele teoretice trebuie sa fie astfel determinate ineit: a) sa difere cit mai putin (cu 1 sau 2 zecimi) de cele observate, din tabelul initial si b) prin regrupare sa dea valori egale cu cele din tabelele marginale Acest obiectiv se realizeaza in urmatorii pasi (Davis, 1976: 227-331; Goodman, 1972): 1 se face lista cu efectele sau interactiunile admise, puse intr-o ordine arbitrara; 2 se considera valoare 1 drept prima aproximare pentru toate frecventele teoretice, corespunzatoare celulelor din tabelul initial; 3 cu aceste frecvente, prin cumulare, se determina frecventele teoretice corespunzatoare celulelor din tabelele marginale; 4 se impart frecventele teoretice de la pasul 3 cu frecventele observate pentru fiecare tabel marginal Coeficienti obtinuti vor fi folositi in pasii urmatori ca ponderi; 5 Se inmulteste fiecare frecventa teoretica de la pasul 2 cu ponderile corespunzatoare, rezultate la punctul 4 pentru primul tabel marginal, и ordinea specificata la 1; 6 Rezultatele de la 5 se inmultesc cu ponderile calculate la 4 pentru o a doua interactiune din lista de la 1 Aceasta succesiune continua pina se termina lista cu interactiuni de la 1; 7 se compara frecventele teoretice rezultate cu cele observate in tabelul initial Daca diferentele sint mai mari de 1-2 zecimi, se reia tot procesul de la pasul 3, punind in locul aproximarilor de la pasul 2 rezultatele de la 6 Estimarea iterativa a frecventelor teoretice s-a facut, in algoritmul prezentat, cu metoda verosimilitatii maxime " 114 r Pentru cslcul&iv2 coeiicicntilcr ІііпЬйи specxiici ь"ххлгіш де >’&  : aplici la frecventele teoretice obtinuse algoritmul din subcepireicl ant-"^ A’uranaL ' реп&п interactiunile excluse din model vor aparea coeficienti lambda egal cu zero Efectete de interacpune si principale, specifice modelului adoptat sint prezentate v in tabelul 432 O lectura calitativi a acestui tabel trimite la regularitati *'л "- are parte cunoscute: - emigrarea se face mai ales din comune iar imigrarea mai mult in orase: - comunele suburbane au un pattem de migrape mai asemanator cu cel al orase-' ? decit al comunelor, - pattem-ul de migratie este relativ nediferentiat in functie de sex ' Tabel 4 3 2, Coeficienti lambda in modalul do migratie cu toate interactiunile do gradul doi   2 Tip de migrape 3 Distanta de migratie 4 Sexul migratilor Efecte principale 1 emigrare 2 imigrare 1 mica X Ш8ГС 1 mase 2 fon 1 Tip localii 1 comuna 0,77 -0 77 021 -021 -0Д4" 0 04" 1 05 2 comuna suburbana -0 18 0 18 0 01* -0,01" OJOi" -0JD1* -183 3 oras -039 039 -022 022 0j03* -003* 0 78 2 Tip de migratie: 1 emigrare -0,12 0 12 0,02* -0JD2* -0 16 2 imigrare • 0 12 -0 12 -OJ02" 0,02" 0 16 3 Distante: l mica Іпиге 4 Sexul: 1 masculin 2 feminin -0A4" OjtM" OJ04" -004" -0,10" 0J0" -005" 0 05* •—valori nesemnificative Datele de intrare in analiza au fost numarul de migranti de diferite tipuri, impartit la 10 000 4 4 COMPARAREA MODELELOR PENTRU EXPLiCAREA DiSTRiBUtiEi DE FRECVENtE in raport cu acelasi set de date poate fi construit un singur model iog-liniar nerestrictiv, dar mai multe de tip restrictiv Cum alegem modelul nerestrictiv ce) mai adecvat pentru explicarea distributiei dintr-un tabel de frecvente? Se poate proceda prin incercari si erori: se alege un model si se verifica gradul in care concorda cu 115 dacele pe baza testului x1 Este posibili insa ti о аІЛ modalitate Se incepe Ctj calcularea coeficientilor lambda pentru ил model nerestrictiv Valorile nesemnificfe live ale acestora sugereaza ce anume efecte de interactiune poc fi excluse din model fara a reduce prea mult puterea sa de predicpe ' Am aplicat acest procedeu de lucru pe exemplul anterior (43 1 ) cu patru varia* bile referitoare la compozitia migratiei totale A rezultat ca toate interactiunile dc gradul patru sint nesemnificative Dintre cele de gradul trei, este semnificativa numai cea care conjuga efectele localitatii, tipului de migratie si distantei Rezulta, deci" c| variabila sex nu este integrata semnificativ in raport cu celelalte Acelasi hem il observam si la nivelul efectelor de gradul doi: coeficientii lambda care implici variabila sex, au valori nesemnificative Pornind de la aceste constatari, se poale aprecia ca cel mai economic mbde| capabil totusi sa explice semnificativ distributia de frecvente din tabelul 4 3 1^ este construit cu numai trei perechi de variabile (localitate, tip de migratie^ (localitate, distanta) si (tip de migratie, localitate) Sau, cu simbolurile adoptate deji (LT), (LD), (TL) 1 Frecventele asteptate se estimeaza, deci, numai in functie de restrictiile impusa prin distributiile in cele trei subtabele mentionate ; Comparind frecventele observate cu cele estimate prin metoda verosimilitati] maxime putem avea o indicatie asupra variatiei din tabel, neexplicata prin modelul adoptat in acest sens se aplica un test X2 obisnuit pentru determinarea concordantei dintre doua distributii (33 2 ) Valoarea rezultata este 12,83 j Calcularea numarului de grade de libertate (gl) in functie de care sa fie interprel tata valoarea observata x2 este mai laborioasa decit in cazul altor situatii i Reamintim ca prin grade de libertate se intelege numarul de elemente indepem dente, in functie de care se poate defini starea unui ansamblu sau sistem statistil (M losifescu, C Moineagu, Vi Trebici, E Ursianu, 1983: 316) ,-j O suma simpla de n elemente, are n grade de libertate O statistica precum suim patratelor ibt -xf, cu i cuprins intre 1 sin a>e n  1 grade de libertate,media fiiM considerata fixa, dertvabila din valorile variabilei intr-un tabel de contingenta cu i linii si c coloane, numarul gradelor de libertate pentru testul de asociere X2 еаи gl = (c - l)(p - 1) > intr-un model log-liniar nerestrictiv, numarul elementelor &i functie de care л determina frecventa asteptata este egal cu cel al tuturor coeficientilor lambe corespunzatori tabelului de referinta Corespunzator, gl " 0, deoarece numart parametrilor modelului este egal cu totalul gl posibile in modelele restrictive, t masura ce creste numarul coeficientilor lambda considerati egali cu zero, sporeste! numarul de gl И 116 i Ca regula generali, pentru un model log-liniar restrictiv, gl este egal cu numarul coeficientilor lambda din modelul nerestictiv corespunzator, egalizati cu zero (Хлоске Витке :3036) Pentru determinarea efectivi a gl fotr-un model restrictiv se procedeaza astfel; 1 pentru fiecare efect de interactiune se determina variabilele implicate si numarul de categorii ale fiecareia dintre ele; 2 pentru fiecare efect, se face produsul cu aceste numere de categorii diminuate fiecare cu 1; 3 se aduna rezultatele produselor pentru toate efectele de interactiune; 4 se procedeaza la calcule, similar, pentru efectele de interactiune de ordin inferior, subsumate celor de ordin superior; 5 rezultatele produselor obtinute se adauga la cele de la pasul 3; 6 se face suma numarului de categorii diminuat cu 1, corespunzatoare variabile* lor implicate in model; 7 rezultatul obtinui se adauga la cel de ia pasul 5 El semnifica numarul de coeficienti lambda din modelul restrictiv; 8 din numarul total al celulelor tabelului de contingenta diminuate cu 1 se scade rezultatul de la 7 Altfel spus, calcularea gl implica scaderea numarului de coeficienti lambda, ai modelului restrictiv, din numarul de coeficienti lambda asociat cu modelul nerestrictiv corespunzator in cazul modelului din exemplul nostru (LT), (LD), (TD), categoriile corespunzatoare pentru fiecare dintre cele trei variabile L, D, T, implicate in model sint: 3, 2 si respectiv 2 Primul efect de interactiune este caracterizat de urmatorul numar de parametrii: (3 - 1)(2 - 1) = 2 Corespunzator pentru (LD) se determina (3 - !X2 - 1) = 2 iar pentru (TD) (2 -* 1X2 - 1) = 1 Rezulta un numar total de 2 + 2+1 =5 parametrii Nu exista efecte de interactiune inferioare celor de gradul 2 in consecinta, la suma anterior obtinuta se adauga numai numarul de parametrii corespunzatori efectelor principate implicate de model: (3 - 1) + (2 - 1) + + (2 - 1) = 4 Rezulta ca modelul are 5 + 4 = 9 parametrii Daca modelul ar fi fost nerestrictiv, ar fi fost definit prin 3x2x2x2-l =23 parametrii in concluzie, numarul gradelor de libertate este 23 - 9 = 12 Din tabelul cu valori %*, pentru nivelul de semnificatie p = 0,05 si gl = 12 se noteaza x i= 21,026 Deoarece valoarea observata = 12,85 este mai mica decit cea teoretica, rezulta ca intre frecventele teoretice si cete observate nu exista o diferenta semnificativa Modelul propus este, deci, adecvat pentru explicarea distributiei de frecvente din tabelul 43 1 in tabelul 4 4 1 sint prezentate valorile x2 pentru 10 modele log-iiniare nesaturate, calculate pe baza acelorasi date asupra migratiei Valoarea testului de concordanta x1 poate fi interpretata si ca indicator al variatiei din tabelul 4 4 1 , neexplicata de modelul adoptat * 117 Taboi 4 4 1 te^>4telare restrictiv" (nessiuraie} construite pe beta datelor шшрге nrigratteJ din tabelul 4Л 1 Tip de mode! Cod model Efecte incluse m model Diferenta dintre model si datele reale x1 Numlr grade de libertate • cu toate interactiunile de gradul doi Hi (LT) (LD) (LS) (TD) (TS) (DS) 4 0s 9 cu cinci interactiuni de H2 (LT) (UD) (LS) SiMiLARiTati iNTRE PROFiLE Cum se grupeazd demografic orasele mari? Exemplul 5 3 1 Cum se grupeaza din punct de vedere demografic orasele mari ale Romaniei, la mijlocul anilor '80? Comportamentul demografic al populatiilor lor este omogen, in virtutea faptului ca toate sint orase mari? Care este raportul intre gruparea demografica a oraselor respective si apartenenta lor la diferite regiuni istorice, structura lor sociala sau calitatea fondului locativ? ' Acestea sint intrebari la care clasificari de tip cluster pot oferi raspunsuri Prin exemple succesive* vom desfasura atit introducerea notiunilor si operatiilor fundamentale ale analizei cluster cit si elucidarea problemelor puse prin setul de intrebari de la inceputul acestui subcapitol Pentru a grupa orasele din punct de vedere demografic este necesar sa cunoastem profilul Jor specific din acest punct de vedere in general, prin profilul unui obiect (oras 122 in exemplul nostru) se intelege pozitia pe care acesta o ocupa simultan pe un sn de criterii prin care se specifica punctul de vedere de referinta Punctul de vedere sau domeniul de referinta in clasificarea noastra sint fenomenele demografice (natalitate, mortalitate, nuppalitate, divortialitate, emigrare si imigrare) in functie de datele disponibile vom folosi urmatorii indicatori ai acestor fenomene: NAT - rata nainlitMtii (nascup vii la 1000 locuitori); M -raiamnrtalitgrii "enwlfe (decese la 1000 locuitori); iNF -rata mortM"tflt" mfotifo (decese copii sub un an la 1000 nascuti vii); DiV - rata divortiglitffii (divorturi la 1000 locuitori); NUP - rata ncptiati tUiit (casatorii la 1000 locuitori); iM -rata imigrarii (sosiri in localitate la 1000 locuitori); EM -rataemigrarii (plecarii din localitate la 1000 locmiori); MN - rata migrapei nete (diferenta dintre sosiri si plecari la 1000 locuitori) Pentru inceput sa consideram numai patra orase: Arad, Tirgu Mures, Bacau si Botosani O prima aproximare a profilurilor demografice care le caracterizeaza este dala de valorile ratelor corespunzatoare celor 8 indicatori alesi: And Tirgu Mures Bacau Bofios"ii NAT 1135 14,00 1902 24,30 M 11,71 8,32" 5 45 5 36 iNF 24,71 19 84 17 73 2431 MV 3 44 2 84 2,71 207 NUP 9 89 8 89 8,04 6 48 iM 8 47 8,99 20 98 3205 EM 4 67 3 93 3,87 4 41 MN 3 80 5 06 17 11 27,83 Coloanele de valori corespunzatoare fiecarui oras dau coordonatele profilurilor demografice ale acestora Examinarea comparativa a profilelor respective indica asemanari (similitudini) puternice intre Arad si Tirgu Mures, pe de o parte, si Bacau si Botosani pe de alta parte Primele doua stol clar deosebite de ultimele doua Diferentierile cele mai puternice se inregistreaza ih legatura cu natalitatea si migrapa Cele doua orase din Moldova au o natalitate mult mai mare decit cele de dincolo de Carpati Diferentele de structura pe virste - pondere mai mare de tineri in orasele moldovenesti fata de cele transilvanene - si modele culturale explica aceste situatii in comportamentul de reproducere al populatiei Sub aspectul migrapei, orasele moldovenesti cu dezvoltare industriala de dala mai recenta au un indice de imigrare net superior celor de peste munti in mai mica masura se impun diferentierile si asemanarile legate de nuptialitate si mortalitate Diferentele sau "distantele** intre oricare pereche de orase pot fi usor calculate pe fiecare criteriu Astfel, fata de Botosani, din punct de vedere ai natalitatii, celelalte 123 erei orase se situeaza la distantele 24,30-19,22=5,08 pentru Bacau 10,03 pentru Tirgu Mures si 12,75 pentru Arad * Apropierea sau similitudinea maxima se inregsitreaza, deci, inue Bacau si Botosani in schimb, similitudinea minima sau distanta maxima este inregistrata in raportul Arad-Botosani Cil de mari sint distantele sau similitudinile globale, in functie de toti indicatorii intre cele patru orase Solutia cea mai simpla ar fi sa calculam suma distantelor pentru fiecare pereche de orase, adunind valorile absolute ale diferentelor inregistrate pentru fiecare indicator Astfel distanta dintre arad si Botosani ar fi egala cu: d = 12430-11351 + 15,36-11,711 + 12431-24,711 + 1237-3 441 + 16,48-9,891 + + 132,25 -8,471 + 14,41-4,671 + 127,83-3,801 " 12,75 + 6,35 + 0,4 + 1,17 + 3,41 + 23,78 + 036 + 24,03 =72,15 Folosind aceleasi procedee s-ar obtine urmatoarea matrice a distantelor dintre cele patru orase: Arad Tg Mure; Bacau Arad T ; Bacau 14337 50,11 3538 3638 Distanta maxima ar fi, conform acestei proceduri de caicul, intre Arad si Botosani iar cea minima intre Arad si Tg, Mures Exista insa cel putin doua motive sa punem sub semnul intrebarii acest mod de calculare a distantelor, in primul rind, daca indicatorii ar fi exprimati in iinitati de masura diferite, atunci adunarea diferentelor respective ar fi fost fara sens in al doilea rind? chiar daca hernii de clasificare ar fi exprimati ar> aceleasi unitati de masura (precum in cazul de fata), atunci tot ar mai ramine problema variatiei lor diferite Cu dl un hem are o variatie mai mare (masurata in abateri standard), cu atit el poate influenta mai mult pozitia diferitelor unitati in spatiul de atribute folosit ca referinta pentru clasificare Sa urmarim valorile medii, abaterile standard si coe^cienjii de wtria ie (egali cu raportul dintre abaterea standard si medie inmultit cu 100) pentru intreaga serie de 21 orase: media abaterea standard NAT M iNF DiV NUP iM EM MN 15,36 7,88 1931 239 8,81 13,78 4,67 9,18 3,03 1,60 4 67 0,65 1 03 635 1 94 631 coeficient de variatie % 19,7 203 24,0 J1 7 І6Л4 a0G i imigrare" (iM) ti migratia neta (MN)an cea mai puternica variatie in baza acestui fapt, confonn principiului mentionat, este de asteptat ca importanta lor an -clasificarea oraselor sa fie mult mai mare decit a celoriaip indicatori Chiar din exemplul de calcul referitor la distanta dintre Arad ti Botosani este evident c* ceidoi indicatori cu variatie maxima au cea mai mare contributie ia suma totali a diferentelor care indica distanta demografica dintre orasele respective Pentru a inlatura efectul unitatilor de masura diferite ti al amplitudinilor diferite de variatie a indicatorilor, acestia se normalizeaza bainte de calcularea distantelor Prin normalizarea cu scorul Z, fiecare variabila se transforma astfel 1MU SS alM iMflCT" zero si abaterea standard 1 (vezi 1 2 14) Pentru o citire ti mai intuitiva a datelor adoptam ttansfonnarea Huli a fiecarei variabile: " X - x H = 50+14 5 3 1 unde x - media seriei de date, o - abaterea standard iar x,- valoarea variabilei x pentru unitatea L Valoarea standardizata cu aceasta formula pentru nivelul natalitatii la Botosani este: H = 50 + 14 - 24Д0-1536 3 03 "913 Noua transformare a dus la o serie cu valoarea medie 50 ti abaterea standard 14 Scorurile Huli pentru toate cele 8 variabile de clasificare sint prezentate in tabelul 5 3 1 Cu aceste valori normalizate reluam calculul distantelor demografice dintre cele patru orase la care ne-am referit initial Rezultatul noilor calcule le prezentam comparativ cu cele initiale: Distante intre profilele demografice, folosind valori: Orasele comparate nenormalizare normalizate Arad-Tg Mures 1433 91 Tg Mures-Baciu 3538 124 Badu-Botosani 3638 127 Arad-Baciu 50 11 215 Tg Muret-Bototani 6732 237 Arad-Botosani 72 15 296 in cele doua variante de calcul ierarhia se mentine aceeasi Difera insa considerabil intervalul dintre indici Astfel, ih prima varianta de calcul distanta Tg Mures-Bacau apare ca fiind de 2,4 ori mai mare decit cea dintre Tg Mures-Arad Acelasi raport, in cea de-a doua varianta de calcul este de numai 1,4 ' 125 Tabelai S 3 1 indicatorii pentru clasificarea cretelor meri (cu peste 100 000 do locuitori) din punctul do vedere ol fenomenelor demografice Valori normalizate cu scorul Huli*) Date 1985 Orasul iNDiCATORi natalitate mortalitate mortalitatea infantili divortialitate nuptialitaic imigrare emigrare mi grafie l Arad 32 83 66 68 64 38 50 38 2 Bacau 68 29 45 53 39 66 44 68 3 Baia Mare 74 41 46 34 54 72 54 71 4 Brasov 36 40 •41 54 63 40 45 , 42 5 Braila 42 58 43 48 33 39 39 42 6 Botosani 91 28 64 43 18 91 48 92 7 Buzau 63 47 64 20 28 61 51 61 8 Resita 46 50 43 39 42 54 75 46 9 Cluj 42 65 35 40 58 50 40 53 10 Constanta 40 49 56 25 50 42 ’ 43 44 il Craiova 44 43 32 42 50 38 38 42 12 Timis 38 71 51 73 90 45 64 40 13 Galati 48 47 44 72 53 37 41 39 14 lasi 58 46 51 68 52 38 33 43 15 Oradea 50 65 37 47 51 56 51 56 16 Piatra Neamt 54 40 58 55 41 65 58 63 17 Ploiesti 45 60 65 66 52 38 38 41 18 Pitesti 44 27 86 54 52 41 43 43 19 Sant Mare 55 61 52 46 58 57 52 57 20 Sibiu 37 48 21 47 50 42 96 31 21 Tg Mures 44 54 51 55 51 39 45 41 *)valoareamaximfi posibili 100; valoarea minimipoeibillO; media seriei de date 50; abaterea standard 14 Componente ale unui profil Pentru a compara intre ele diferite profile este util sa distingem intre forma, nivelul si variatia ""> imprastierea кмг (M Lorr, 1983:23-32) Sa consideram doua cazuri ideale de orase A si В ale caror profile demografice sint caracterizate prin urmatoarele seturi de valori (normalizate deja): Orasul A: 50 70 60 75 90 55 65 * Orasul В 5 25 15 30 45 10 20 126 Fig 53 1 Exemplu de profile paralele (cu forme identice) dar cu nivele diferim Din reprezentarea lor grafica (fig 5 3 1) se observa clar ca acestea sfat paralele dar situate ia nivele diferite Paralelismul respectiv este o caracteristica a formei profilelor Notam сц ranguri de la 1 (minimum) la 7 (maximum) valorile corespunzatoare fiecarui profil in general, doua profile au aceeasi forma daca rangurile cdiespunJltoare lor sint identice Paralelismul este o forma extrema a "convergentei" formei unor perechi de profile Nivelul unui profil este dat de media scorurilor sale Astfel, nivelul profilului A este egal cu (50 + 70 + 60 + 75 + 90 + 55 + 65)   7 = 66,4 Comparativ, cel de-al doilea profil, B, are un nivel mediu mult mai mic, de 21,4 VarjiUia profilului poate fi estimata prin coeficientul de variatie, abaterea standard, dispersia sau, cel mai simplu, prin radicalul din suma patratelor abaterilor pe care le au valorile (te PTOfil rir nivelul Crwp?piin?ainr yrerei idfinu" variante de caicul, variatia profilului A este egala cu: ^(50 - 66,4)2 + (70 - 66,4)1 + + (65 - 66,4)1 = 32,9 Cel de-al doilea profil, B, are, in conditii de paralelism perfect, aceeasi variatie Gradul de convergenta sau divergenta dintre formele unei perechi de profile este estimat de obicei prin coeficientul de corelatie 1 127 Din aceasta , disecare" a profilclor rezulta ca, la un nivel mai analitic, gruparea diferitelor entitati trebuie sa precizeze clar, in functie de ce anume se realizeaza: asemanari dc forma, de nivel, de imprastiere sau de combinatii ale acestora Revenind din lumea exemplelor ideale in cea a realitatii, ilustram in graful din figura 5 3 2 raportul dintre doua profile demografice convergente, cele ale oraselor Brasov si Timisoara Evident, forma profilclor tinde sa fie aceeasi dar atit nivelurile cit si variatiile lor sint considerabil diferentiate in conditiile unui relativ izomorfism, nivelul pentru Timisoara (61,59) este mai mare decit pentru Brasov (45,6) Similar, prunul profil este mai ,Jucat** sau mai imprastiat decit cel de-al doilea Coeficientii dc variatie sint pentru profilul Timisoara 27% iar pentru Brasov 19% H- 70 r ati i lor Masuri diferite ale proximitatii (distanta sau similaritate) au capacitati diferite dc reflectare a raporturilor dintre anumite componente ale pro filelor Coeficientii de corelatie masoara raportul dintre forma profilclor Ei nu spun nimic insa ih legatura cu raportul dintre nivelurile si imprasGeriie ‘pffifilelor comparate in schimb, masuri ale distantei, precum distanta euclidiana sau cea modulara iau in consideratie toate cele trei aspecte ale unui profil - nivel, forma si imprasuerc O pozitie intermediara intre coeficientii dc corelatiesi masurile distantei o ocupa coeficientii de congruenta Un astfel de coeficient estimeaza raportul dintre doua profile in functie dc forma sj nivelurile lor, egalizind imprastieriie    Calcularea coeficientului dc congrienta (rc) se face cu o formula derivata din cea a corelatiei: Sxy ^Xx*- y2 5 3 4 unde x si у sint valorile profilelor comparate (Se observa ca din valorile variabilelor puse in relatie nu se mai scade media, ca in cazul coeficientilor de corelatie) Desi foarte promitatoare, si aceasta formula isi are deficientele ei considerabile Masurile de similaritate pe care le genereaza sint foarte mult afectate de tipul de normalizare 129 a variabilelor care ii precede aplicarea in plus, daca variabilele sfiit normalizate pe o scala pozitiva (de tipul Scalei Huli), vatef^aeocficientilar de congruenta, cu variatie intre 0 si 1 tind sa se aglomereze spre limita maxima a intervalului de variatie Din acest motiv, raporturile de similitudim-dintre perechile de imitati companie se diferentiaza foarte putin intre ele Cele trei tipuri de masuri mentionate pentru proximitate - distanta, corelatie si congruenta - nu sint numai orientate diferentiat in report cu componentele profilunlbr pe care le estimeaza Fiecare dintre ele are si avantaje si dezavantaje specificei Mentionam fii continuare citeva dintre acestea: C Coeficientul de corelatie^ina dintre masurile cele mai utilizate in* analiza cluster, este influentai de modul fi) care sint scalare - direct sau invera - variabilele de profil O scalare, este directa atunci cind valoarea de scala creste proportional cu cresterea atributului masurat invers, scalareaeste indirecta daca valoarea de scala variaza invers proportional cu intensitatea variabilei masurate Schimbind modul de scalare al unei variabile intt-o matrice de date de M unitati x P variabile, se modifica si raporturile de similaritate dintre cele M unitati daca masurarea se face cu ajutorul coeficientilor de corelatie O modalitate (propusa de Cohen, 1969, apud M LorrJ983: 35-36) pentru depasirea acestei deficiente lucreaza cu asa-ziselc^orwi reflectaiejScorunVe reflectate ale unei variabile sint calculate dupa formula = zm - x^ J^ unde m- punct neutru al scalei originale Respectivul punct poate fi media seriei originare, sau un punct neutru sub aspect psihologic (exemplu - valoarea 4 pe o scala de opinie de la 1 la 7) Prin acest procedeu, se realizeaza o dublare a variabilelor originare cu variabile reflectate Profilul fiecarei unitati este determinat in functie de valorile de scala originare si reflectate Principala critica adusa coeficientilor de corelatie in analiza cluster se refera la faptul ca acestia sint calculati pe baza unor medii ce rezulta din insumarea scorurilor corespunzatoare unei unitati pe variabile foarte diferite ca natura Critica adusa corelatiei, din acest punct de vedere, este, de fapt, o critica la adresa mediilor calculate pentru fiecare profil Desigur, normalizarile (cu scorul Z, Huli sau de alt tip) atenueaza astfel de deficiente dar nu le inlatura definitiv O alta problema pe care o pune coeficientul de corelatie este legata de faptul ca valoarea sa maxima, 1, poate semnifica o simpla relatie de crestere monotona a valorilor unui profil in raport cu cele ale altui profil Prezenta unui punct neutru (valoarea zero) pe scala coeficientilor de corelatie pune probleme de interpretare Cu cit valoarea unui astfel de coeficient este mai aproape de zero pentru doua profile, cu atit este mai mare incertitudinea asupra raportului de similitudine dintre acestea Prin opozitie, apropierea de 1 sau -1 poate fi considerata ca sporire a gradului de certitudine asupra raportului dintre formele profilclor comparate Cum in realitate exista frecvent situatii de incertitudine, clase 130 cu'granite difuze, este normal, cred, sa operam si in planul cunoasterii cu masuri care fac distinctie dintre clar-neclar cert-incert, orientat-neorientat Daca acceptam ca indicatorii folositi pentru definirea profilurilor unui set de obiecte sint un esantion din totalul indicatorilor posibili pentru domeniul de referinta, atunci se poate lucra si cu notiunea de prag de semnificatie bt interpretarea coeficientilor care estimeaza similaritatea dintre profilele a doua obiecte definite in functie de p indicatori Pe aceasta bata poale fi ales pragul de semnificatie al coeficientului de corelatie ca linie de demarcatie intre similitudinile semnificative (cur^rgi^ fi cele nesemnificative leu r (+0,71)-(-0,57) r -0,75 = 0,540 u ‘ r1 ri> Г13 •1 0,71 (-0,75) -0,57 (-0,57) (-0,75) 0,71 = 0,934 = 0,602 Coeficientul corespunzator lui x3, b2, are valoarea cea mai mare Rezulta deci, ca mortalitatea infantila este corelata cu dezvoltarea socio-urbana mai mult decit urbanizarea si fertilitatea Prin extragerea radacinii patrate se obtin valorile: a = ^0,540 = 0,735, b = ^0 934 = 0,966 c= ^0 602 = 0,776 137 Sensul acestor coeficienti (denumiti "epistemici* de catre Cosiner) dintre varid bila latenta fi indicatori este atribuit de cercetator, in conformitate cu cunostintele pe care le are despre domeniul de referinta, si respectind in plus si exigente derivate difA semnul coeficientilor de corelatie Grafic, relatiile intre dimensiune fi indicatori роагц fi reprezentat ca in figura: DEZVOLTARE SOOAL-URBANa FERTiLiTATE MORTALiTATE URBANiZARE iNFANTiLA г = 0,71 Г 0Л7 Fig 5 4 J Relatii intre variabila latenta "dezvoltare social urbana0 ti indicatorii fertilitate, mortalitate infantil!! |i grad de urbanizare (coeficienti epistemici) Pentru a verifica daca semnele coeficientilor epistemici au fost corect atribuite, se face produsul algebric al semnelor corespunzatoare arcelor pentru perechi de astfel de coeficienti si se compara cu semnul coeficientului de corelatie care uneste indicatorii de referinta Coeficientii a si b avind semn negativ, produsul lor algebric este de semn pozitiv- Corespunzator, este de asteptat ca si corelatia dintre fertilitate si mortalitatea infantila sa fie pozitiva Corelatia observata intre cei doi indicatori satisface cerinta mentionata Considerind tfi, tfi si fi drept coeficienti de ponderare, reducerea celor trei indicatori la o singura dimensiune a fost realizata dupa formula: DEZV4 = 0340   (100-xJ 4 0 934 (100-x^ 4 0 602 • unde DEZV( -indicele dezvoltarii social-urbane pentru tara i x^, x? , valorile celor trei indicatori pentru aceeasi tara i in prealabil, indicatorii respectivi fusesera normalizati t 138 i си>зсогиІ Huli (formula 53 1 ) Spre exemplu pentru tara noastra, la nivelul anului 1984, indicele respectiv are valoarea DEZV x 0540 • (100 - 63) + 0,934 • • (100 - 74) + 0,602   30 ж 623 Cu cil indicele are o valoare mai mare, cu atii este mai accentuati dezvoltarea sociourband a unitatii teritoriale de referinta in mod similar a fost calculat indicele respectiv fi pentru celelalte tari analizate: Austria (120), Belgia (118), Bulgaria (89), Cehoslovacia (89) Danemarca (132), R D G (116), R F G (134), Ungaria (79), Olanda (126), Norvegia (106), Polonia (67), Suedia (127), Elvetia (116), Marea Britanic (123), SUA (111), iugoslavia (45) (Pentru detalii asupra acestui exemplu vezi D Sandu, 1990 a) Rezultat al operatiilor succesive de selectare a indicatorilor si masurare a distantelor sau similantatilor dintre perechile de obiecte care urmeaza sa fie clasificate sint matricile de proximitate (dc distante sau similaritati ale obiectelor) Pornind de la aceste matrici pot fi realizate diferite variante de clasificare empirica in functie de metoda de grupare adoptata Exista o intreaga "padure" de astfel de metode Dintre acestea, cele mai folosite sint cele aglomerative** Particularitatea iar este ca pornesc de la considerarea fiecarei unitati ca grupare sau duster Ulterior, fiecare cidu de grupare contopeste clusterele din etapa anterioara in final rezulta o singura grupare echivalenta cu totalul unitatilor din populatia supusa analizei Metodele de clasificare care pornesc astfel, de jos in sus, se cheama ca stat aglomerative Ele se opun celor divizive in care se porneste de sus in jos, de b considerarea setului initial de nritati drept cluster care se subdivide cu fiecare ciclu de grupare pina cind se ajunge, eventual la clustere echivalente cu fiecare dintre unitatile de analiza Principiile de operare ale celor doua categorii de metode sint, evident, opuse, in clasificarile aglomerative se cauta unitatile sau subgraparile cele mai asemanatoare, in cele divizive se urmareste identificarea celor mai diferite subgrupari 5 5 METODE DE GRUPARE AGLOMERAT1VA 5 5 1 Caracteristici generale Algoritmul principalelor metode aglomerative este acelasi • Se porneste de la o matrice a proximitatilor (similaritati sau distante) dintre toate perechile de unitati de clasificat Aceasta*rfflKzeaza setul datelor de intrare ale metodei Masurile folosite pentru identificarea proximitatilor pot fi oricare dintre cele mentionate (sau altele asemanatoare)   in matricea proximitatilor se identifica unitatile i si j cele mai apropiate " Acestea sint atribuite aceluiasi cluster k — • Se recalculeaza matricea proximitatilor pentru a determina distantcle similaritatile dintre noul cluster ic si gruparile anterioare (Dupa primul ciclu de grupare, acestea din urma sint echivalente cu fiecare dintre unitatile din afara ciusterului k Ulterior, dupa 139 mai multe cicluri, gruparile anterioare pot fi formate ele insele din mai molie onifilpj asa cum au rezultat din pasii preced"iti ai algoritmului) • in noua matrice recalculata se cauta din nou perechea de grupari ca maxima similaritate Gruparile corespunzatoare acestei perechi sint contopite intr-o noua grupare * * ; Cicluri de grupare continua pina la un anumit prag de taiere sau de stopare a aglomerarilor Exista mai multe reguli de stopare la care ne vom referi pe parcursul capitolului ; Sa presupunem ca din examinarea unei mamei de distante a rezultat perechea reciproca (i j) pe care o denumim k in subgniparea i exista n unitati iar in j, n Pentm a recalcula matricea distantelor incluzind noua grupare k, trebuie masurata distanta dintre oricare alta unitate h si k, d^ Raporturile dintre gruparile implicate ir aceasta recalculare pot fi simbolizate ca in fig 525 1 daca in analiza sint implicate numai doua caracteristici de grupare •- *  ((- 0,68 - 0 13)2 + (- 1,07 + 030)2 + (- 0,98 t- 0 30)2)  3 = 0 69 in mod similar se obtine matricea distantelor dintre toate unitatile, considerate cite doua: Matricea distantelor euclidiene medii H A В C D E F G A 0,00 0,69 0 97 2,18 1,05 1,05 0,38 231 В 0 69 0,00 0 65 1,73 0,86 0,79 0,39 1,88 C 0,97 0,65 0,00 1,39 0 57 0,64 0,85 2 15 D 2,18 1,73 1 39 0,00 1,88 1,93 1 95 2 44 E 1,05 0,86 037 1,88 0,00 0,19 1,05 2 15 F 1,05 0,79 0,64 1,93 0,19 0 00 1 01 2,00 G 0,38 0,39 0,85 1 95 1,05 1,61 0,00 2,20 H 231 1,88 2,15 2,44 2,15 2,00 2,20 0,00 142 ! Algoritmul de grupare a unitatilor porneste de ia aceasta matrice, operind in urmatoarele secvente: 1 Se cauta in matricea distantelor perechea reciproca de valoare minima (Daca proximitatile ar fi fost masurate prin indici de similaritate se consideraicea cu valoare maxima), in exemplu, aceasta este perechea EF pentru care d^ = 0,19; 2 Se atribuie aceleiasi grupari (EF) unitatile din perechea reciproca respectiva Pentru a reprezenta grafic procesul de grupari, ta figura 5 52 П se construieste o dindograma, adica un grafic dc tip arbore Nivelul la care se unesc doua chistere sau doua unitati este marcat printr-o linie orizontala care uneste liniile verticale, denumite "ramuri", corespunzatoare gruparilor unite Ramurile care pornesc de la baza figurii corespund situatiei initiale, ta care un cluster era echivalent cu o unitate O prima grupate este marcata deci la nivelul 0,19 unind ramurile pentru unitatile Б si F Gruparea nou formata este reprezentata, ta continuare, prin ramura care pleaca vertical de la linia de nivel 0,19; 3 Se reface matricea distantelor cu (EF), considerata ca o singura unitate Distanta dintre orice cluster X si (EF) este data de valoarea distantei minime dintre unitati ale lui X si ale lui (EF) Spre exemplu, unitatea В se afla la distantele 0,86 fata de E si 0,79 fata de F Din regula mentionata rezulta ca d^^ = 0,79 Aplicind acest principiu, rezulta urmatoarea matrice a distantelor A В C D (EF) G H A 0 0 69 0 97 2,18 1 05 0 38 231 В 0,69 0 0,65 1,73 0 79 0,39 1,88 C 0,97 0,65 0 139 0Д7 0 85 2 15 D 2 18 1 73 1 39 0 1 88 1 95 2,44 EF 1,05 0 79 037 1,88 0 1 01 2,00 G 0 38 0 39 0 85 1,95 1,01 0 2,20 H 231 1 88 2 15 2,44 2,00 230 0 4 Se reia procesul de grupare de la pasul 1 cautind perechea reciproca maxima in noua matrice in cazul de fata aceasta este corespunzatoare unitatilor A, G Ele vor forma nucleul unei grupe noi marcate corespunzator la nivelul 038 in dendograma din fig 5 5 2 a Daca numarul total al unitatilor de clasificat este egal cu n, atunci reluarea ciclurilor de grupare de la pasul 1 se face de (n-1) ori in final rezulta dendograma din fig 5 5 2a si "lista ciclurilor de grupare" (aglo-meration schedule), (vezi si M NoruSis, 1985:174) Orice secventa este caracterizata prin: numarul dc ordine, unitatile pe care le grupeaza, nivelul distantei sau similaritatii la care se produce contopirea unor grupuri diferite si numarul secventei urmatoare la care se reia gruparea respectiva pentru a fi unita cu o alta 143 Fig 5 5 2 Exemplu de dendograma pentru doul tipuri dc clasificari multicriteriale (a - cu o singura legatura; b - cu legaturi medii) Unitatea B, spre exemplu, se uneste cu (A G) la nivelul 0,39, in decursul celui dc-al treilea ciclu Noua grupare se va contopi cu o alta (E, F, C) in secventa 5 5 Obtinerea gruparilor propriu-zisc sc realizeaza prin "taierea" dendogramci la un anumit nivel Nu exista o regula unanim admisa, in legatura cu nivelul la care sa fie facuta aceasta operatie Jocul liniilor orizontale de unire a diferitelor ramuri din arbore poate sugera nivelul de taiere Zona in care liniile orizontale irtcep sa se distanteze considerabil intre ele este cea in care poate fi adecvata "taierea" in figura 5 5 2a o 144 i Figi 5-5-2x Exemplu de dindograma pe baza dc analiza cluster cu legaturi cam pe te 2,50 2 40 2 30 2 20 2,10 2 00 1 90 1 80 1 70 1 60 1,50 1 40 1 30 1,20 1 10 1 00 0,90 0,80 0,70 0,60 0,50 0 40 0,30 0,20 0,10 0,00 D E F C A G В H 145 - TaM5JJ - > Lista secventelor da grupare a unitatilor d(n exemplul 5 5 1 folosind analiza ' 1,05 > 1,01 > 0,85)  9 = 052 in aceasta varianta de calcul grupele sint mai distantate, deci, decit lasa sa se inteleaga masura folosita ih analiza cluster cu o singura legatura in general in clasificarea cu legaturi medii bure grupari, o grupare va fi contopita cu o alta desemnata prin ,j" daca fi numai daca distanta medie dintre "i* fi ,j" este mai mica decit cea dintre fi orice alta grupare JT Algoritmul de lucru are aceeasi structura ca si m cazul gruparii cu o singura legatura Punctul de pornire il constituie o matrice de similitudini sau distante intre unitatile supuse clasificarii in matricea respectiva se determina perechea reciproca de valoare 147 minimfl (daca matrice* este de tfistafljr) a" яжіяА (daca (0,79-0,68) in plus, exista si un motiv practic de a prefera sectionarea dendogramti dupa ticlui 10: daca am accepta sectionarea ti imediat dupa ciclul 4, atunci foarte putine dintre orase s-ar incadra intr-o grupare de cel putin doua etomeote Operind, deci, sectionarea dendogramti dupa ciclul 10, rezulta urmatoarele grupari de orase:' L Galati iV Resita Oasegntote iasi Sibiu Ploiesti V * Bacau ѴШ Braila Tg Mures v Baia Mare DC Piatra Neamt -И Cluj УіЛ =•• Botosani X Constanta Oradea : Buzau ’ ' s XL Pitesti Sara Mare va Brasov - *  ’ ' • ’  * Ш And r Craiova Timisoara   ’ * 4 1 V: • • -• x 4 * in aceasta varianta de clasificare, 5 din cele 7 grupari de minimum doua orase sint formate din numai doua orase izolate, cu un grad ridicat de specificitate rainin Braila, Constanta, Pitesti si Piana Neamt ' Daca se consideri fiecare oras izolat tot ca grapa, atunci bilantul general al economiei realizate prin clasificare no cate foarte bon: cele 21 de orase au fost reduse la 11 clase, din care 4 nu contin decit cite un element in aceasta varianta de clasificare grupele sini, este drept, foarte omogene Similitudinea minima intragrupela este de 036 Economia clasificarii este cu atit mai mare cu cit numarul de grupari obtinut este inai mic fata de cel al elementelor lor de clasificat si cu dl dimensiunea minima a unei grupari este mai mare Am putea defini un indice elementar al economiei unei clasificari (ЕС) prin urmatoarea formula: EC= 1- пшпіпіі de grapiri numind de demente de clutatt 155 Ag: 5,53 Dendrograma similaritatii demografice a oraselor mari Cluster cu legaturi complete 156 1 Cu cil indicele arc o valoare mai mare, cu atit calasificarea este mai economica, in cazul de fata, ЕС = 1 - = 0 48 Evident, intre variatia intragnipala a claselor si economia clasificarii exista o relatie inversa: sporul de economie duce la reducerea omogenitatii gruparilor si invers intreaga clasificare demografica a oraselor poate fi reconsiderata acceptind un criteriu mai putin exigent de segmentare a dendogramei Astfel, poale fi adoptata ca nivel de selectionare secventa dupa care fiecare unitate a fost atribuita unei grupe de cei putin doua elemente in analiza cluster cu legaturi complete prezentata in tabelul 5 5 8 nivelul de sectionare conform acestui principiu este dupa secventa 14 in noua varianta de clasificare rezulta urmatoarele grupe: Tabel 53Л Lista secventelor da grupare demografica a oraselor mari folosind analiza cluster cu legaturi complete Ciclul de grupare Grupari contopite Nivel de contopire (corelatie intergrupala) Ciclul urmator la care reapare gruparea (pentru codur vezi 5 3 1) Prima grupare A doua grupare 4 1 13 14 0,86 10 2 17 21 0,83 10 3 9 15 0,80 7 4 1 12 0 79 15 5 8 20 0,68 16 6 2 3 0,67 11 7 9,15 19 0 66 15 8 6 7 0 64 12 9 4 11 0 64 17 10 13,14 1731 036 14 11 23 16 0,40 12 12 2,3 16 6,7 0 34 16 13 10 18 031 18 14 5 13,14 1731 0 20 17 15 1 12 9 15 19 0,06 19 16 23 16,6 7 830, -0,14 18 17 4,11 5 13 14,1731 -0 16 19 18 23 16,6,7 830 10,18 -039 20 19 1,12,9,15,19 4,113 13,14 1731 -0,47 20 20 lJ2&15J9An5J3il4J721 23 16,6 7 830,10,18 -0 94 — i Arad Ш Brasov V Sibiu Timisoara Craiova Resita П Bacau iV Braila vi Cluj Baia Mare Galati Oradea Botosani iasi Saru Mare Buzau Ploiesti ѴП , Constanta Piatra Neamt Tg Mures Pitesti 157 De la 0,48, cit era indicele de economie a clasificarii in varianta anterioara* in vanania actuala se ajunge la 0,67 Sporul de economie se rasfringe insa negativ asupra omogenitapi grupelor, similitudinea minima intragnipala se reduce de la 0,56 in varianta cu 11 clase, la ОДО in cazul celor 7 clase intre cele 7 grupe predomina raporturile de neasemanate (Urmarind principiul genera) al analizei cluster cu legaturi complete, raporturile intergrupale sint estimate prin coeficientul de corelatie minim dintre perechile de unitati comparate) Matricea similitudinilor minime intra si intergrupale 1 1 ii Ш iV V Vi Vii i (0,79) -0,77 -0ДЗ -032 -0Д5 0 06 -331 □ -0 77 (0 34) -0 76 -0 87 -0,14 -0 69 -0J9 ІЛ -0 23 -0 76 ‘ (0 64) -0 16 -0ДЗ -0 16 *-0 47 iV -032 -0 87 -0 16 (0 20) -ОДЗ -0 47 -0 56 V -035 -0 14 -033 -0,83 (0 68) -032 -0 35 Vi 0 06 -0 69 -0,16 -0 47 -032 (0 66) -0 94 Vii -0Д1 -039 -0 47 -036 -035 -0,94 (0 21) Gruparea cea mai omogena este formata din orasele Arad si Timisoara Cele mai eterogene sint gruparile iV si ViL in raporturile dintre grupe, dominante sir t aspectele de neasemanate (r in conditiile in care acestea au un volum relativ redus, cred ca poate fi utila si procedura construirii unor profiluri dominante Realizarea unui astfel de profil se tace prin reductii succesive atit la nivelul membrilor grupei cit si al indicatorilor care le caracterizeaza in primul rind se elimina subgrupele sau unitatile marginale (caracterizate astfel in functie de nivelul de acces in grupa al unitatii) in tabelul 53 9 unitatile marginale (plasate sub linia punctata prin care se segmenteaza unele dintre grupe) sint Pitesti Constanta Braila si Piatra Neamt Tabel 53 9 Profilul demografic al oraselor, pe grupe de similitudine indicatori normalizati cu scorul Z Grupa Orasul NAT M iNF DiV NUP iM EM Nivel Abatere i 1 Arad -126 2 39 1 11 129 1 03 -034 -0,01 138 0,87 12 Timisoara -0 89 1 47 0,10 1,66 2 83 -037 1 00 2 46 0 88 П 2 Bacau 127 -132 -038 0 18 -0 75 1 13 -0,41 -020 0 19 3 Baia Mare 1 73 -0,65 -031 -1 13 0,27 135 0 32 0,75 0 35 6 Botosani 2 95 -137 1 03 -0 49 -226 2 91 -0,14 1,03 2 69 7 Buzau 0 92 -024 0 98 -2,11 -135 0 78 0,09 -0 48 0,74 16 hi alia Neamt 031 -0,75 036 035 -0 66 1 08 036 0 62 -0 61 Ш 4 Brasov -0 98 -0 74 -0,67 029 0 90 -0,68 -034 -0 94 -0 61 11 Craiov" -0,45 -0,47 -131 -037 0,02 -035 -039 -1 92 -122 Vi 13 Galati -0 15 -023 -0 45 139 0 19 -0 94 -035 -028 -025 14 iasi 037 -031 0 04 126 0,17 -033 -120 -0 12 -023 Ploiesti -038 0,74 1 09 1 11 0 15 -038 -034 0 41 -0 16 Tg Mwejs Q,Qt QJ8 Q 07 - 26 Braila -037 035 -0 46 -0,16   -120 -032  -0 76 -1,45 -0 89 V 8 Sibiu -031 -0,01 -0,47 -0 77 -036 027 1,80 -0 01 -0,14 20 Resita -0,94 -0 15 -2 06 -020 -0 02 -034 3,31 -025 1 74 Vi 9 Cluj -0 60 1,04 1 08 -0 69 038 0,00 -0,69 -0 61 -037 15 Oradea -0 01 1 08 -0 92 -020 0,10 0 42 0 05 022 - 077 19 Satu Mare 0,38 0,75 0 11 -026 038 032 0 15 0 95 -1,40 ѴП 10 Constanta 4) 7O 0,43 -129 j) 02 41,46 133 18 Pitesti -0 46 -1 62 2 60 0 27І 0,13 -0,62 -0Д1 0 09 | 0 92 in continuare, in cadrul fiecarei grupe se examineaza sensul valorilor normalizate ale indicatorilor Daca un indicator are aproximativ jumatate din valori peste medie (cu semn pozitiv) iar cealalta parte a valorilor sub medie (cu sethn negativ) atunci 159 Tabel S 5 10 Profilul demografic mediu al grupelor de orase Gupa NAT M iNF DiV NUP iM EM Nivel Abatere 1 -1 08 1,93 0 61 1,48 1 93 -0 61 0,50 2 02 0 8s ii 1 44 -0,95 0 38 -0,64 -ода 1,49 0 08 0 34 0 66 iii -0 72 -0,61 -ода -0 14 0,46 -0 77 -0 62 -1,43 -092 iV -020 0 20 0 06 0,84 -0,12 -0 85 -0,77 -036 -055 V -0 63 -0 08 -127 -0 49 -029 -0 14 2 56 -0 13 0,94 Vi -008 0 96 -003 -038 0,42 0,31 -0,16 0 19 -085 Vii -Д58 -0 83 152 -0 76 0 05 -039 -0 49 -0 71 0 15 Tabelul 5SJ1 Profilul demografic dominant al fiecarei grupari de orase Gruparea indicatorii profilului NAT M iNF DiV NUP iM EM 1 Arad Timisoara - 11 Bacau, Baia Mare Botosani Buzau Piatra Neamt — -a +• 01 Brasov Craiova - - - iV Galati, lasi, Ploiesti Tg Mures Braila -   V Sibiu Resita - — - - Vi Cluj, Oradea Satu Mare +• 4- + acesta se exclude din setul indicilor specifici grupei Emigrarea, spre exemplu, este un indicator nespecifk pentru grupa ii, cu doua valori sub medie si cu doua peste medie Pentru aceeasi grupa se exclud ca nespecifici indicatorii mortalitate infantila, divortialilate si nivel mediu al profilului Dupa efectuarea acestor reductii, profilurile sau paitemurile dominante pentru fiecare grupare au configuratie din tabelul 55 11 in acelasi labei sint marcati indicatorii care au un grad maxim de specificitate pentru o anume grupare Marcarea respectiva a fost facuta pornind de la premisa ca un indicator este cu atit mai specific pentru o grupare cu cit valorile sale la nivelul acesteia sint mai dbpartaie fata de medie Conventional am considerat ca respectiva conditie de extrem pozitiv (abateri mari 160 peste medie) sau extrem negativ (abateri mari sub medie) este indeplinita in cazurile in care valoarea normalizata este mai mare de 1 sau mai mica de -1 (Altfel spus, daca valoarea medie a indicatorului pentru grupa respectiva se arate cu mai mult de o abatere standard de la media generala a acelui indicator) Natalitatea in grupa ii este mai mare decit media, pentru toate cele 4 orase nemarginale care o compun Media valorilor ei normalizate fiind de 1,44, deci mai mare decit 1, o putem considera ca indicator cu inalt grad de specificitate pentru grupa respectiva Aceeasi este situatia cu mortalitatea generala, nuptialitatea si imigrarea in cadrul grupei П Grupele cu grad maxim de structurare a profilelor sint cele in care se inregistreaza cel mai mare numar de valori medii cu specificicate ridicata, marcate in tabelul 5 5 11 prin in exemplul ales, aceasta situatie o au grupele i, ii si iV in seria oraselor mari din tara noastra existau, deci, la mijlocul anilor '80, trei tipuri demografice dominante: A Orase cu natalitate mare, mortalitate mica, imigrare imensa si, surprinzator nuptialitate redusa Din perspectiva cauzelor care genereaza pattem-ul demografic respectiv, se poate vorbi de orase cu atractie migratorie puternica, si populatie predominant tinara Bacau, Botosani si Baia-Mare erau reprezentative pentru acest tip demografic*, B Orase cu natalitate redusa, mortalitate mare si nivel ridicat al divortialitatii si nuptialitatii imbatrinirea structurii pe virsle si modele culturale specifice sint principalii factori care genereaza comportamentele demografice mentionate Arad si Timisoara sint orasele reprezentative pentru acest tip demografic; C Orase cu circulatie migratoarie redusa si miscare matrimoniala intensa, cu divortialitate ridicata in special Acesta este cazul oraselor Galati, lasi, Ploiesti si Tg Mures in afara grupelor i, ii si iV care au o maxima integrare in unul dintre cele trei tipuri demografice exista grupele relativ marginale Profilul dominant al acestora din urma este apropiat de unul din cele tipice sau izolat in raport cu acestea Gruparea a Vl-a are o apropiere maxima fata de tipul Arad-Timis in ansamblu, cele 21 de orase pot fi ordonate in baza urmatoarelor axe de similitudini si opozitii: a) orase cu populatie relativ imbatrinita (grupele i si Vi) opuse ca profil celor (b) cu populatie tinara (grupa ii); c) orase cu mortalitate infantila scazuta si emigrare puternica (grupa a-V-a) cu profil opus oraselor d) cu emigrare redusa (grupa a-iV-a); e) orase cu specificitate demografica pronuntata (grupele iii si Vil plus orasele marginale din celelate grupe) 161 • Efectul metodei de grupare Daca in locul legaturilor complete vom folosi pe cele medii, vom obtine o clasificare si mai economica (fig 5 5 4) Se vor obtine deci grupe mai putine, dar mai eterogene Similar, adoptarea clasificarii pe baza metodei celui mai apropiat vecin (cluster cu o singura legatura) va duce la o si mai mare economie insotita insa de o si mai marc eterogenitate a claselor Configuratia gruparii demografice a oraselor in functie de cele trei metode este prezentata in fig 5 5 5 Fig 5-5 4 Dendrograma profilelor demografice ale oraselor mari Cluster cu legaturi medii 162 ' Stoparea procesului de grupare s-a realizai in toate cele trei cazuri in puncuk in care a aparut primul decalaj considerabil in seria indicilor de aceea in grupa Orasele care erau impreuna in clasificarea cu legatiiri complete se mentin ir aceeasi grupare si in clasificarile cu legaturi medii si unice in trecerea de la prima spre ultima clasificare se realizeaza grupari tot mai largi Judecind in fucpe de criterii de valabilitate externa, clasificarea cu legaturi medii pare sa fie cea mai adecvata Specificitatea ei este ca regrupeaza trei dintre clasele generate prin legaturi complete, Bacau-Baia Mare, Botosani-Buzau si Piatra Neamt in aceeasi clasa Trei dintre orasele noii grupari sint din Moldova (Bacau Botosani si Piatra Neamt, iar celelalte doua din zone culturale apropiate Moldovei) Aceeasi tendinta asteptata - de reducere a numarului de grupari prin trecere de la legaturi complete la legaturi medii, si, in final, la legaturi unice - se inregistreaza si in cazul in care se porneste de la indicii distantelor euclidiene medii (vezi fig 5 5 6) Fig 5 53 Grupari pe baza almllarltatll intre profiluri demografice extinse Analiza chister cu legaturi Complete Medii Unice Galati Galati Galati iasi lasi lasi Ploiesti Ploiesti Ploiesti Tg Mures Tg Mures Tg Mures Arad Arad Arad Timisoara Timisoara Timisoara Cluj Cluj Cluj Oradea Oradea Oradea Satu Mare Satu Mare Satu Mare Craiova Craiova Craiova Brasov Brasov Brasov Resita Resita Resita Sibiu Sibiu Sibiu Bacau Bacau Bacau Baia Mare Baia Mare Baia Mare Botosani Botosani Botosani Buzau Buzau Buzau Piatra Neamt Piatra Neamt Piatra Neamt Pitesti Pitesti Pitesti Constanta Constanta Constanta Braila Braila Brada • indice de economie a clasificinit o 0,48 0,57 0,67 163 * Similaritate versus disumta Compararea figurilor 5 5 5 si 5 5 6 este relevanta pentru efectul pe care il induce tehnica de masurare a proximitatilor dintre perechile de unitati pentru configuratia gruparilor Sa consideram, spre exemplu, raportul dintre analizele cluster cu legaturi complete pornind dc la cele doua tipuri de masurare a proximitatilor Clasificarea cu distante euclidiene genereaza numai 7 grupari fata de cele 11 rezultate in cazul utilizarii indicilor de similaritate (corelatii intre profiluri extinse) Prima este, deci, mai economica decit cea de-a doua, indicii de economie corespunzatori fiind de 0,67 si, respectiv, 0,48 Trei dintre grupari se mentin exact cu aceeasi componenta in ambele clasificari: Arad-Timis, Resita-^Sibiu si Galaji-lasi - Ploiesti-Tg Mures Acestea ne par a fi si cele mai "sigure** grupari, in sensul ca se manifesta independent dc efectul tehnicii de masurare a proximitatii binare (intre perechile de unitati) Care clasificare este mai buna, cea bazata pe distante sau cea care pleaca de la similaritati? O validare externa nesistematica, intuitiva sustine in mai mare masura, clasificarea pornind de la similaritatea profilelor extinse in spatele fenomenelor demografice stau, in esenta, structuri culturale si de virsta Or, din aceasta perspectiva este greu de inteles ccl putin una dintre gruparile pe care le genereaza analiza cluster cu legaturi complete lucrind cu distante medii Este vorba de cea constituita din Brasov, Craiova, Braila, Constanta, Cluj, Oradea si Satu Mare O astfel de grupare parc sa fie mai degraba un artefact statistic favorizat de efectele de amalgamare asociate cu utilizarea distantelor euclidiene Reamintim ca folosirea acestora din urma duce la efecte de compensare intre actiunile celor trei componente ale profilului (forma, nivel si imprastiere) in schimb, folosirea corelatiei intre profilele extinse permite evitarea acestor efecte de compensare Clasificarea se realizeaza in acest ultim caz in principal in functie de forma profilelor, corectata cu nivelul si imprastierea lor Situarea oraselor Braila si Oradea in aceeasi grupa, spre exemplu, nu poate fi inteleasa decit ca efect al tehnicii de masurare a proximitatilor Din punct de vedere cultural, cele doua orase sint, dupa cite stim, apartinatoare de zone diferite Nu avem informatii in legatura cu structurarea pe virste in cele doua orase Din compararea indicilor de mortalitate, nuptialitate si imigrare rezulta, insa, ca este foarte probabil ca virsta medie sa fie mai mica la Braila decit la Oradea Greu de inteles este si modul in care apare in clasificarea pe baza distantelor orasul Botosani indiferent de metoda de grupare utilizata, acesta nu este atribuit nici unei clase Are o mare specificitate atunci cind analiza este intreprinsa in termeni de distante euclidiene in analizele care lucreaza cu similaritatea, Botosaniul se incadreaza firesc, in grupari dominante de orase ale Moldovei sau ale unor 'zone culturale inrudite cu Moldova in figura 5 5 5 este notat faptul ca profilul extins al orasului Botosani se aseamana cel mai mult cu cel al orasului Buzau Ce anume determina insa situarea 164 celor doua orase in grupe di fente atunci cind analiza se face in termeni de distante euclidiene? Raspunsul poate fi citit cu usurinta in tabelul 5-5 9 Forma profilurilor pentru cele doua orase este foarte apropiata- Ceea ce difera considerabil este nivelul si imprasticrea lor Nivelul mediu este mai marc pentru profilul de la Botosani decit pentru cei de la Buzau (1 03 fata de -0 48) De asemenea, variatia profilului este mai mare in primul (2,69) fata de cel de-a! doilea oras (0 74) Deci, desi au o forma apropiata, profilurile celor doua orase difera considerabil sub aspectul nivelului si al imprastierii lor Cum analiza cu distante nu privilegiaza efectul formei, se impune efectul nivelului si al imprastierii Un alt oras cu profil demografic foarte specific este Pitestiul Aceasta specificitate este foarte puternica indiferent daca analiza opereaza cu similaritati sau cu distante (vezi fig 5 5 5 si 5 5 6) Ceea ce sugereaza toata analiza comparativa pe care am intreprins-o este recomandarea de a compara atit rezultatele obtinute cu metode diferite de grupare cit si in functie de tehnici diferite de masurare a proximitatilor Gruparile care se mentin dincolo de efectul metodei de grupare sau al tehnicii de estimare a proximitatilor, sint cele ,,uri", cu credibilitate sporita Fig 5 5 6 Grupari pe baza distantelor (demografice) medii euclidiene AnalizA cluster cu legaturi complete medii unice Brasov Brasov Brasov Craiova Craiova Craiova Braila Braila Braila Constanta Constanta Constanta Cluj Cluj Cluj Oradea Oradea Oradea Satu Mare Saru Mare Satu Mare Galati Galati Galati lasi lasi iasi Ploiesti Ploiesti Ploiesti Tg Mures Tg Mures Tg Mures Arad Arad Arad Timis Timis Timis Resita Resita Resita Sibiu Sibiu Sibiu Bacau Bacau Bacau Piatra Netunt Piatra Neamt Piatra Neamt Baia Mare Baia Mare Baia Mare Buzau Buzau Buzau indice dc Pitesti Pitesti Pitesti economie a Botosani Botosani Botosani clasificarii 1Ш 0 71 0 76 165 5 6 STRUCTURi, TiPURi sl ARii SOCiOCULTURALE RURALE: CLUSTERE DE UNiTati sl CLUSTERE DE iNDiCATORi 5 6 1 Profilul cultural al unei zone rurale ' • СП de diversa este viata culturala in mediul rural romanesc din spatiul tarii noastre? • in masura in care exista o astfel de diversitate, care sint principalele tipuri de unitati si arii teritoriale care dau continutul acestei diversitati? • si, in fine, ce a generat diversitatea culturala a statelor noastre si prin ce poate ea fi identificata? La aceste intrebari se poate raspunde einologic, demografic si sociologic, calitativ sau cantitativ, analizind sate, comune sau judete, adoptind perspective sincronice sau diacronice etc Multitudinea perspectivelor posibile de abordare este evidenta importanta teoretica si practica a intrebarilor puse, de asemenea - Un demers integrator care sa valorizeze toate perspectivele angajate intr-o astfel de analiza ramine un deziderat major in domeniu in drumul spre realizarea imaginii de ansamblu asupra ariilor culturale rurale, ar putea fi utila si o abordare "neortodoxa" in care se porneste de la urmatoarele premise: - integralitatea specificului cultural al unor unitati teritoriale rezulta mai degraba din investigarea conditionarilor imediate ale comportamentelor culturale - si a fenomenelor socio-culturale rezultate prin agregarea acestor comportamente - decit din analiza "bucata cu bucata" a comportamentelor culturale Caracterul difuz si multidimensional al fenomenelor culturale provoaca apelul 1a analiza specificului cultural prin sursele sale - specificitatea culturala a ariilor rurale rezulta, pe de o pane, din actiunea factorilor care orienteaza comportamentele culturale spre unul dintre cei doi poli ai axei "traditional-modem" iar, pe de alta pane, din cei care induc orientarii valorile independente de aceasta polaritate Profilul cultural a) unei zone este dat, deci, nu numai de pozitia acesteia pe conunuumul "traditional-modem" ci si de setul valorilor cu specificitate locala, care nu se subsumeaza dimensiunii respective Exista cel putin cinci tipuri de s truc tun "tari" cu rol fundamental in conditionarea intensitatii de manifestare in profil teritorial a orientarilor valorice traditionale sau modeme: • demografice • educationale • de ocupare si salarizare a fortei de munca • de urbanizare • de comunicare (prin mass-media, retea stradala etc ) 166 > Rationalitatea in genere, ca adecvare a mijloacelor la scopuri si, in particular, promovarea actiunilor stiintific fundamentate sint principalele enteni de recunoastere a prezentei modernitatii si modernizarii culturale in plan atiiudinal si comportamental forme concrete de manifestare a modernitatii culturale pot ft toleranta religioasa, laicizarea, adoptarea mijloacelor contraceptive, valorizarea si contabilizarea timpului, mobilitatea sociala, investitii sporite in calitatea copilului, fertilitate redusa, empatie sporita etc Corespondenta ipotetica dintre polii atitudinali si comportamentali "traditional-modem", pe de o parte, si valorile unora dintre dimensiunile subsumate structurilor mentionate, poate fi reprezentata astfel: Favorizare a orientarilor TRADitiONALE Dimensiuni ale structurilor locale Favorizare a orientarilor MODERNE imbainniLa structura pe v ir sie intinerita agricola ocupare a populatiei nc agricola cooperatist! salarizare de stat individuali agricultura de grup redus stoc de invatamini ridicat redus! concentrare urbana sporita mic! pondere populatie urbana in zona mare ; redus! expunere sociala la mass-media sporita nonodemizala retea stradala modernizata redus! re(ea si dotare scolara extinsa in localitatile sau zonele in care structurile locale au valori de favorizare a modernizarii exista o mai mare probabilitate de dezvoltare a unor comportamente sociale modeme decit in cazurile in care respectivele structuri sint de tip traditional Principalele clase de comportamente care prin agregare dau fenomene demografice sau sociale, interpretabile in termenii dihotomiei tradiponal-modcrn sint urmatoarele: intensitatea favorabila pentru orientari valorice TRADitiONALE Fenomen social demografic intensitate favorabila pentru orientari valorice MODERNE mare fertilitate mica mare mortalitate infantila mica mica divorpaiitatc mare mica mobilitate sociala mare mica migratie marc 167 1 Profilul cultural al unei zone rurale se determina insa nu numai prin indicatorii fenomenelor st structurilor subsumabile opozitiei traditional -modem indefinirea acestui profil trebuie considerate si informatiile referitoare la structuri ecologice si sociale care favorizeaza orientari specifice, neimerpretabile in termeni de traditional sau modem, in seria acestor structuri pot fi induse: Structuri ecologice: naturale: munte*deal*cimpie constituite istoric (in plan regiuni istonce social si cultural) Structuri aocio-danografice: grupuri einice Profilul cultural al zonelor rurale din (ara noastra poate fi conturat deci pornind de la indicatori ai structurilor si fenomenelor mentionate, relevante pentru o: ’entarile valorice si comportamentele culturale ale populapei Vom realiza in continuare o clasificare a zonelor rurale ale Romaniei'din pers* pectiva profilului lor sociocultural Din sfera larga a indicatorilor pe care i*am con* siderat ca relevanti pentru acest profil am selectat pe cei pentru care am avut date disponibile la nivel de judet - total comune in mod relativ conventional am considerai ca loialitatea comunelor dinor-un judet constituie o arie sau zona socio-culturala rurala Cri ierii pentru clasificarea empirica a ariilor socio-culturale rurale: DiMENSiUNi indicatori Structuri de favorizare a virstl pondere populatie de +60 ani la orientarilor valorice 1 01 1988 VRS traditionale modeme ocupa (ie salariati la 1000 locuitori SLR salariati cooperatori care au lucrai in agricultura SC tip de agriculturi pondere lerai agricol in gospodariile particulare GP urbanizare pondere popula[ie urbana in jude] in 1985 U8 pondere populatie urbana in jude in 1966 U6 categoria medie de marime a oraselor din judet OM retea stradala pondere strazi modernizate STM participare la retele numar abonamente TV la 100( de comunicare locuitori TV extraiocala numar abonamente telefonice la 1000 locuitori TEL Structuri locale, relief dominant scor mediu al reliefului in comun neimerpretabile in termeni (S-munie; 4-deab munte; 3—deal de tradiponal modem 2-deal-cimpie; ]-cimpie) calculai ca medie ponderata cu populatia REL 168 DiMENSiUNi iNDiCATORi | i regiune torici dt • jafasnin Transilvania + Banat + Ctqana-Maramures ' TRANS Fenomene soc io-demog rafie e profil einice Moldova Muntenia > Oltenia + Dobrogea pondere romani in 1977 MOLD MUNT ROM interpretabile in termeni dc fertilitate rata totali a fenilitlpi x FERT traditiontl modem mortalitate rata mortalitltii infantile iNF divorti aii tare rata divortialitltii DiV imigrare rata imigrarii iM indice imigrare din alte judete (migran[i pe durata vietii in 1977) iMV (Exceptind cazurile in care se face o alta mentiune, indicatorii sint саісиіар pentru anul 1985 sau 1986 la nivel de total comune din jude| Surse de date: DCS Recensamini 1977, Anuare statistice Anuarul demografic, 1974) Valorile pe care le inregistreaza un judet (total comune) pe toti cei 20 de indicatori mentionati definesc profilul socio-cultural empiric al acestuia Profilurile culturale talente care stau in spatele acestor profiluri empirice pot rezulta in urma unor procese de interpretare a claselor de judete generate prin analiza cluster Vom incerca sa ajungem la astfel de profiluri latente prin analiza relatiilor dintre indicatori prin determinarea claselor de judete cu maxima similaritate a profilelor socio-culturale empirice si a profilurilor lor dominante sub aspect empiric Judetele care apartin aceluiasi cluster si sint invecinate constituie o arie socio-culiurala rurala in fine, pentru ordonarea si interpretarea datelor poate fi utila si clasificarea indicatorilor in termeni de structuri (stare) - fenomene (in sensul de clasa de evenimente sau schimbari de acelasi tip) si volum-distributie-localizare intersectind cele doua dimensiuni, obtinem urmatoarea clasificare a indicatorilor de analiza: structuri sau stari fenomene volum  intensitate OM, TV, TEL FERT, iNF DiV iM iMV distributie (compozitie) VRS SLR SC GP U6 U8 STM, ROM localizare REL, TR ANS MOLD, MUNT 169 5 6 2, Structuri soc іо-cultura ie rurale Modul in care se grupeaza indicatorii inclusi in analiza poate sugera ipoteze in legatura cu continutul structurilor socioculturale latente care ordoneaza universul cultural al vietii rurale in profil teritorial Consideram ca punct de pornire matricea coeficientilor de corelatie dintre cei 20 dc indicatori mentionati Fiecare dintre acesti indicatori are un profil dat de valonle pe care le inregistreaza pentru toate cele 40 de judete Doua profile de indicator sint cu atit mai "legate4 cu cit coeficientul de corelatie corespunzator lor are o valoare absoluta mai marc Pe matricea coeficientilor dc corelatie dintre indicatori poate fi aplicat oricare dintre procedeele de analiza cluster cunoscute in prealabil se realizeaza o poziuvarc a tuturor valorilor Grupele de indicatori rezultate pot fi considerate ca retele empirice cu grad maxim de conectivitate, sau covariatic intre elementele care le compun • * Ce semnifica aceste grupari? Ce anume le genereaza? Pe de o parte ele sint rezultat al influentelor sau intcrinfluentelor directe dintre perechi de variabile semnificate de indicatorii pusi in relatie Urbanizarea judetului si imigrarea in comune, spre exemplu, pot contribui la intinerirea populatiei rurale sau la reducerea ritmului de imbatrinire al acesteia De asemenea, atractia migratorie a oraselor a stimulat (in special in cazul in care acestea au fost "inchise*) sporirea imigrarii in comunele din apropierea acestor orase in baza acestei relatii cauzale ne putem astepta, deci, ca indicatorii marime medic a oraselor din judet, populatie urbana in judet, rata dc imigrare in comune si pondere persoane de peste 60 ani in populatia comunelor sa apara in aceeasi grupare Pc dc alta pane, gruparea indicatorilor in acelasi cluster poate fi si rezultat al unor relatii dc semnificatie a acestora in raport cu aceeasi variabila latenta intre mortalitatea infantila si numarul de telefoane din comune, spre exemplu, nu poate fi stabilita o relatie cauzala directa Daca statistic sc inregistreaza o astfel dc relatie si este dc sens negativ, atunci ca poate fi interpretata prin raportare la o variabila latenta, sau boa treia variabila, manifesta, care mediaza legatura lor La un nivel foarte mare dc generalitate sc poale considera ca cei doi indicatori exprima, in planuri diferite, aceeasi trasatura laienta a modernizarii comunitare Cu cit aceasta este mai accentuata, cu atit cultura si reteaua medicala vor fi mai evoluate si, implicit, mortalitatea infantila va fi mai redusa Similar, o modernizare sporita se va exprima si printr-o retea de telefoane dezvoltata in temeiul acestui rationament este de asteptat ca indicatorii rata mortalitatii infantile si numarul de telefoane la 1000 locuitori sa apara in aceeasi grupa Situarea unor indicatori in aceeasi grupa, in baza unui procedeu de analiza cluster poate fi, deci, generata fie de relatii cauzale directe, sau indirecte intre acestia" fie de capacitatea lor de a semnifica o aceeasi variabila latenta, sau un set dc variabile latente, aflate in raporturi cauzale intre ele 170   [(-2)2+ (-1)2 + O2 + О2 +12 +22) 6 = ^iO 6 = 1,29 Aceasta abatere standard este o masura a preciziei (exactitatii probabile} unui estimator si poarta numele dc eroare standard Cu cit eroarea standard este mai marc, cu atit este mai probabil ca valoarea unui estimator sa se indeparteze mai mult de la cea a parametrului * 201 Daca in exemplul ales" esantioanele ar fi fost mai mari, de cite 3 elemente, precizia estimatici ar fi sporit: Esantioane Medie Eroare de esantionare (exactitatea estimatei) Cod Valori ale elementelor 1 9 11 13 11 • -1 2 9 11 15 11,67 -олз 3 И 13 15 13 + i 4 9 13 15 12,33 + 0 33 Abaterea standard a erorilor de esantionare este ^((-1    (- 0J3)2 +P + 0331)  4 = 0,74 " Sporind cu unu numarul elementelor din esantion, eroarea standard a medici se reduce dc la 1,29 la o,74 Corespunzator, precizia estimarii a crescut • Calcularea erorii standard in situatiile obisnuite de esantionare nu se cunoaste, insa, nici valoarea parametrului si nici nu se construiesc toate esantioanele posibile Se stie doar valoarea es-Limatomlui si variatia sa in cadrul esantionului Cum poate fi determinata precizia estimarii, exactitatea ei probabila? Fara a prezenta fundamentul matematic al raspunsului, vom mentiona numai logica sa intuitiva si forma practica dc determinare a preciziei estimarii in pnmul rind, este dc asteptat ca precizia estimarii sa fie cu atit mai mare cu cil populatia dc baza este mai omogena din punctul de vedere al caracteristicii de esantionare Or, cum esantioanele probabiliste sint o reflectare a structurii populatiei de baza, omogenitatea lor sporita creeaza premisa unei precizii mai mari in estimare De ce? Pentru ca in conditii de omogenitate a populatiei, natura combinatiei de elemente din care rezulta esantionul nu mai induce variatii foarte mari ale valorilor sintetice de la un esantion la altul in schimb, pentru o populatie foarte eterogena, combinatii diferite dc elemente in esantioane pot duce la valori foarte diferite ale esti maiorilor Cum abaterea standard este una dintre cele mai relevante masuri ale variabiiitatii, vom spune ca este de asteptat ca precizia uni i estimari la nivel de esantion sa fie cu atit mai marc cu cit abaterea standard a caracteristicii de esantionare este mai mica in esantion in al doilea rind, precizia estimarii este cu atit mai mare cu cil esantionul are un volum mai mare, cu cil include o mai mare proportie de elemente din populatia dc baza Probabilitatea de a reproduce prin esantion structura populatiei de baza este cu atit mai mare cu cit acesta include mai multe din elementele сага o compun Am vazut si in exemplul dat anterior ca marimea esantionului a dus la o sporire a preciziei de estimare 202 "Este si mai evidenta aceasta dependenta а preciziei de marimea esantionului daca se considera cele doua casuri limita de esantion - cu numar de elemente egal cu cel al populatiei de baza si cu volum egal cu 1 in prima situatie estimatorul si parametrul au aceeasi valoare Precizia este maxima iar eroarea de esantionare este'egala cu zero Daca esantionul contine numai un element, atunci distributia de esantionare este la fel cu distributia in populatia de baza Corespunzator, abaterea standard din populatia de baza este egala cu eroarea standard (Mueller, Schuessler, Cosiner, 1970: 372) " Eroarea de esantionare a unui estimator este, deci, direct proportionala cu variabilitatea caracteristicii de referinta in esantion si invers proportionala cu volumul acestuia Pentru valori sintetice diferite, eroarea standard se calculeaza diferit Calcularea erorii standard pentru medie (ESt) se face astfel: unde s - abaterea standard in esantion n - volumul esantionului sau  Цг-х)’ n(n-l) 6 2 unde x4 - valoarea i a caracteristicii x in esantion 1 - media variabilea x in esantion Daca esantionul reprezinta cel putin o cincime din populatia de baza, se ia in calcul si un factor de corectie egal cu 1-n N, unde N - volumul populatia! de baza Astfel, formula 6 2 devine: Г Y n(n-l) 6 3 Aplicind aceasta formala la esantionul de copii cu virstele 9, 11 si 13 rezulta: ,  (9-11)1 + (11-11)! + (13-11)1 3, "V -3xi (1-г=0Л8 Pentru intreaga serie a celor patru esantioane cu cite trei copii, mentionate in ultimul exemplu, erorile standard au valorile 0,58, 0,88, 0,58 si 0,88 Media lor este de 0,75, foarte apropiata deci de eroarea standard (0,74) pe care am саісѵіаьо in ipoteza cunoasterii medii in populatia de baza si a construirii tuturor esantioanelor posibile (Erorile de rotunjire genereaza diferenta dintre cele doua cifre) Eroarea standard calculata in baza valorilor dintr-un esantion este o estimare a celei care s-ar putea calcula daca am cunoaste toate esantioanele posibile Pentru a determina precizia cu care a fost estimat un procent pe baza unui esantion se apeleaza la aceeasi eroare standard calculata dupa aceeasi logica a raportarii abaterii standard a procentului (p) la volumul esantionului: unde q " 100 - p Calcularea erorii standard a mediei pentru un esanron stratificat se face prin ponderarea erorilor standard asociate fiecarui strat cu pcnderea acestuia in esantion dupa formula ES^= V ZW J ES J 6-5 unde ES - eroarea standard a mediei in stratul i v W - ponderea stratului i in total esantion in esantioanele stratificate media se calculeaza ca medie ponderata daca este vorba de un esantion stratificat neproportional, cu formula: T = EW • T 6 6 1 i Date pentru un exemplu de calculare a erorii standard in cazul unui esantion stratificat sint prezentate in tabelul 6 5 1 Sa consideram ca factor de stratificare apartenenta religioasa (ortodox, catolic, protestant, alte) a populatiei dintr-o localitate * iar drept caracteristica de estimare prin esantionare un indice ai religiozitatii Tabel 63 1 Date pentru calcularea erorii standard intr-un esantion stratificat Apartenenta religioasa Ortodox Catolic Protestant Alte Total Persoane in localitate 1020 700 450 300 2470 Pondere persoane 0,41 0,28 0,18 0,12 1,00 Persoane in esantion Media indicelui de 82 56 36 25 200 religiozitate Abaterea standard a 1 2 2,8 2 3 0 9 1,80 indicelui 1 1 0 3 1 6 0,7 Eroarea standard estimata pentru fiecare dintre cele 4 categorii de populatie este: ortodox МЙ-І -°-12 catolic 0,3 > 56-1 = 0,04 protestant 1,6 n" ѵзб-1 0,27 alte ,0,7 =0,14 ' V25-1 Pe total esantion, conform formulei 6 5 eroarea standard a medici indicelui de religiozitate va fi: Vo,4P • 0,i22 + 0 281 - 0,04* + 0,182 • 0,272 + 0 122   0,14* = 0,072 Daca procentul persoanelor care intentioneaza sa plece din localitate este p = 15% in cadrul unui esantion de 200 de persoane, eroarea standard a procentului respectiv este:  15(100-15) ES =   — - = 2 52 ’ V 200 Valori sintetice diferite - coeficient de corelatie, coeficient de variape etc - au formule diferite pentru determinarea erorii standard De asemenea, scheme de esantionare diferite implica moduri de calcul specifice ale erorii standard Formulele utilizate pentru esantionarea simpla aleatoare sau pentru cea stratificata nu pot fi preluate ca atare pentru esantionarea cluster interval de incredere Valoarea exacta a parametrilor, a valorilor sintetice in populatia de baza, nu poate fi cunoscuta ca atare din esantion Estimatorii sint valori punctuale care aproximeaza parametrii Ceea ce se poate preciza pornind de la informatia furnizata de esantion este intervalul in care, cu o anumita probabilitate, se inscrie parametrul Distributia de esantionare a mediei este una dc tip normal Mai exact, aceasta inseamna ca 68,27% din mediile calculate prin esantionare repetata la infinit difera fata de media reala din populatia de baza cu o abatere standard in intervalul de ±1,96 abateri standard de la media reala se inscriu 95% dintre mediile de esantionare; aproape toate mediile de esantionare (99,75%) se plaseaza in intervalul de ±3 abateri standard in raport cu media parametru Procentele mentionare indica, deci, probabilitatea cu care o anume medie rezultata din esantion se inscrie in intervalul respectiv in teoria esantionarii procente precum cele mentionate poarta numele de nivel de incredere iar intervalul corespunzator lor este denumit interval de incredere Eroarea standard este o estimare a abaterii standard la nivelul distributiei dc esantionare Limitele intervalului de incredere se vor calcula deci cu ajutorul erorii standard (ES) in functie de nivelul de incredere ales, aceasta sc inmulteste cu o constanta t egala cu numarul de erori standard considerate ca abatere de la valoarea parametrului 205 Pentru diferite nivele de incredere" t are valorile: nivel de incredere 68,27 90,00 95,00 98 00 99 99,998 li 1,645 1,960 2 362 2 576 3,09 Media obtinuta prin esantion este estimarea punctuala a mediei - parametru Corespunzator, pentru a calcula intervalul de incredere al mediei-parametru se adauga si se scade din mcdia-cstimaior cantitatea ES • l Norind cu x, media de selectie, intervalul de incredere al mediei are ca limita minima x-ES • t iar ca limita maxima x + ES • u Acest mod dc calcul este valabil in cazul -scutioanelor mari, cu volum de cel putin 30 de unitati Cantitatea (ES*t) poarta numele dc eroare limiia de sondaj (Д) (Moincagu, Negura, Urseanu, 1976: 164) Pentru nivelul dc incredere de 95%, cel mai frecvent folosit in practica statisiiea, intervalul de incredere al mediei va fi, deci, dai de x* ± 1,96 * ES Folosind datele din tabelul 6 5 1 si eroarea standard calculata pe baza acestui tabel, intervalul de incredere al medici indicelui de religiozitate in exemplul fictiv mentionat, pentru nivelul dc incredere de 95%, este cuprins intre 1 80 - 1,96 x 0,072 x 1 66 si 1,80 + 1,96 x 0,072 = 1 94, Deci, daca s-ar extrage de foarte multe ori un esantion de 200 de persoane din populatia dc 2470 locuitori, mediile indicelui de religiozitate, calculate pc baza acestor esantioane s-ar inscrie in 95% din cazuri in intervalul de la 1,66 la 1,94 Pentru ca aceste medii dc esantionare sint o estimare a mediei-parametru, se mai poate sustine, cu o probabilitate de eroare de numai 5% (=100 - 95) ca medie respectiva are o valoare cuprinsa in limitele intervalului 1,66 - 1,94 Sau, cu o mai marc siguranta, de 99% sc poate sustine ca intervalul caruia este probabil ca ii apartine aceeasi medie este de 1 80 - 2,576 x 0,072 = 1,61 si 1 80 + 2,576 x 0,072 = 1,99 Sporind nivelul dc incredere, se produce o extindere a limitelor intervalului de incredere 6 6 CiT DE MARE SA FiE EsANTiONUL? Limita maxima a esantionului este data de volumul total al populatiei dc baza si de resursele disponibile pentru cercetare Cu cit populatia este mai numeroasa si cu cit resursele sint mai bogate, cu atit poate fi mai mare esantionul Cel mai adesea, esantionul cu care se lucreaza este un compromis intre nevoia de economisire a resurselor si cea de asigurare a reprezentat] vitatii acestuia Reprczentaiivitatea unui esantion este data, in esenta, de eroarea standard care ii corespunde stiind ca eroarea standard (ES) este egala cu raponul dintre abaterea standard (o) si radacina patrata din volumul esantionului (n), rezulta ca pentru a obtine un esantion dc volum n cu un grad prestabilit de reprezentativi taie, trebuie sa existe relatia: 206 Deci, volumul esantionului trebuie sa fie cu atit mai mare cu cit populatia de baza este mai eterogena, iar eroarea standard dorita este mai mica Din formula erorii limita de sondaj Д = t • ES, poate fi extras ES = Д t, unde t = coeficientul corespunzator nivelului de incredere ales (pentru 'a garanta ca parametrul se inscrie intre limitele intervalului de incredere) inlocuind valoarea lui ES in 6,7 , rezulta: Pentru o eroare limitata de sondaj fi pentru un nivel de incredere alese, volumul esantionului trebuie sa fie cu atit mai mare cu cit este mai mare dispersia caracteristicii de selectie in populatia de bata Exemplul 6 6 1 Daca, spre exemplu, dorim sa cercetam calitatea locuirii intr-un oras, putem considera marimea locuintelor drept caracteristica de esantionare Alegerea se face in baza ipotezei ca numarul de camere pe locuinta este un element central pentru calitatea si satisfactia de locuire Dintr-un presondaj aflam ca abaterea standard a marimii locuintei este de s = 0 92 iar marimea medie a acesteia de x = 2,3 camere  locuinta Acceptind o eroare limita de sondaj de 5% din medie, Д = 0,05 x 2,3 = 0,12 Optam pentru un nivel de incredere de 95% de unde rezulta t = 1,96 Deci, volumul esantionului va fi: i,96"x0,92l 3,25   0 121 ’ 0 0144  226 Daca resursele pentru cercetare obliga la un volum mai redus al esantionului, se poate accepta o eroare limita de selectie mai mare, de, sa spunem, 0,16 Esantionul va cuprinde in acest caz: 1,962x0,922 3,25 n= 0 16’ "W Deci, cu o probabilitate de 95%, marimea medie a locuintei din localitate se va inscrie in intervalul de incredere dat de ±0,16 fata de media calculata prin esantion Exemplul 6 62 Sa presupunem ca dorim sa efectuam o cercetare asupra fenomenului dc natalitate la nivelul oraselor tarii (exceptind capitala) Obiectivul sondajului il constituie identificarea conditionarilor social-economice si culturale ale variatiei acestui fenomen intre orase Vom folosi orasul ca unitate dc esantionare iar rata natalitatii in calitate de criteriu de esantionare stim ca nivelul mediu al natalitatii urbane a variat intre 1981-1989 aproximativ intre 14%o si 17%o Nu cunoastem care este nivelul natalitatii in anul desfasurarii sondajului il presupunem ca fiind aproximativ 16,0%o Vom accepta ca eroare limita de sondaj valoarea 0,80 ceea ce reprezinta 5% din 16 Dorim sa garantam inscrierea 207 mediei reale a natalitatii in intervalul cu variatia ±0,80 cu probabilitatea de 95% Valoarea constantei t este, deci 1 96 Pentru estimarea abaterii standard a natalitatii innv orase folosim ЗД2 Aceasta a fost propusa pornind dc la doua serii de date care indica nivelul mediu si abaterea standard a natalitatii pentru 231 orase in perioada 1973-1982 (nu sint incluse Bucurestiul si 4 orase mici din judetul Constanta): anul media ratei de natalitate pe oras abaterea standard i natalitapi intre 9бДх3"5У = 0,64 + 0,20 ’ 235 Exemplele mentionate evidentiaza faptul ca determinarea volumului esantionului implica existenta unor informatii prealabile asupra dispersiei si mediei caracteristicii dc esantionare Cercetari anterioare sau presondaje sint necesare pentru a orienta alegerile de valori in acest sens Cunoasterea mediei este necesara in conditiile in care se doreste o reprezentativitate a esantionului in raport cu media caracteristicii dc selectie Eroarea limita de selectie sau de reprezentativitate se determina ca procent din media probabila De obicei se accepta ca aceasta eroare sa fie sub 5% din medic in cazul care se urmareste o reprezentativitate in raport cu o caracteristica dihotomica, formula de calcul pentru volumul esantionului este similara: t2x p X q П = -: A 2 6 10 unde p - procentul din populatia de baza care poseda o anumita caracteristica iar q = 100 - p Daca selectia este nerepetata t’xpx q "= , t’xpxq 611 ДЧ —n — Cantitatea pq indica dispersia unei caracteristici calitative Aceasta este maxima atunci cind p = q = 50 Volumul esantionului intr-o astfel de situatie dc dispersie maxima, ignorind volumul populatiei de baza si acceptind o probabilitate de eroare de 5% (sau un nivel de incredere de 95%) si o eroare limita dc 2,5% (reprezentind 5% din media caracteristicii p = 50) este: l,962x 50x50 9604 6,25 = 1537 Practica de a lucra cu esantioane de aproximativ 1500 persoane in situatiile in care nu se cunoaste dispersia caracteristicii calitative poate fi justificata in baza unui astfel de calcul 209 6 7 APLiCAtiE: UN EsANTiON REPREZENTATiV LA NiVEL NAtiONAL PENTRU CERCETAREA FENOMENELOR CULTURALE Situatia de esantionare Esantionul prezentat in continuare a fost elaborat pentru o cercetare asupra opiniilor politice si orientarilor valorice ale populatiei Romaniei, efectuata la Laboratorul de sociologie in aprilie 1990 in functie de resursele de cercetare disponibile - timp, bani si anchetatori -volumul propus initial pentru esantion a fost de 1400 persoane Un argument in plus pentru acest volum este si faptul ca el poate fi reprezentativ cu o probabilitate de eroare de 5% si cu o eroare limita de 2,6% in raport cu o caracteristica dihotomica, de dispersie maxima (p = q = 50%) Durata de completare a chestionarului, destul de laborios, a variat intre 40 minute si 90 minute, in functie de nivelul de instructie al subiectului, in principal De la inceputul cercetarii s-a convenit ca in masura in care timpul o va permite, sa fie anchetati in plus, dincolo de limitele stricte ale reprezentativitatii, 50-100 de tineri si studenti pentru a punea realiza ulterior subesantioanc de marime considerabila cu aceste categorii de populatie Schema de esantionare S-a folosit o schema complexa de esantionare bistadiala, conjugala cu operatii de stratificare proportionala, selectie cluster si pe cote O imagine sintetica a procesului de esantionare este oferita in fig 6 7 1 Primul stadiu al esantionarii are ca rezultat selectia oraselor si comunelor din care vor fi culese datele precum si stabilirea volumelor de subesantion in fiecare din punctele respective Secventele 1-7 din fig 1 indica principalii pasi de atingere a acestui obiectiv in cel de-al doilea stadiu (pasii 8-10) se determina modul de selectare a persoanelor la nivelul fiecarei localitati Descriem in continuare continutul celor 10 pasi ai procesului dc proiectare a esantionului Secventa 1 Se porneste de la ipoteza ca in afara unor variabile individual-familialc care influenteaza comportamentele culturale ale populatiei, un rol important in acest sens revine si unor factori de mediu cultural in care traiesc oamenii O specificare a acestui mediu am obtinut-o prin intersectarea celor 16 arii culturale in configuratia pe care am determinat-o prin analiza cluster in capitolul (5 6 ), si tipul de localitate (oras mare, cu peste 100 mii de locuitori, oras mijlociu cu 30 000-99 999 locuitori, oras mic cu mai putin de 30 mii locuitori si comune) Se determina mai intii procentele de populatie pe fiecare dintre cele 16 arii culturale si, ulterior, procentele pe tipuri de localitati in cadrul fiecarei arii in tabelul 6 7 1 este prezentata stratificarea populatiei tarii in functie dc dble doua criterii - arie culturala si tip dc localitate in prima arie culturala, spre exemplu, formata din judetele Moldovei exceptind Suceava si Buzau, se afla 17,68 din populatia tarii in interiorul 210 acestei arii, 54% din populatie locuieste in comun, 29% in orase man, 11% in orase de marime medie iar 6% in orase mici Fig 6 7 i Schema procesului da proiectare a esantionului pentru cercetand fenomenelor culturale 1 stratificarea populatiei tarii pe straturi culturale (date de tipul de localitate si aria culturala) 2 alocarea proportionala a esantionului pe straturi culturale 3 stabilirea marimii medii a 4 numar si volum puncte de subesantioanelor pe punct de esantionare pe straturi culturale esantionare orase comune J 5 stratificarea oraselor tarii pe arii si a selectia oraselor- subarii culturale  " puna de esantionare pe arii si subarii culturale si tipuri de orase (esantionare cluster si intentionala) 7 selectia comunelor pe arii si subarii culturale, in judetele in care au fost retinute puncte de esantionare urbane 8 stratificarea populatiei adulte a tarii pe grupa de virsta si pe sexe 10 stabilirea subesantioanelor pe localitati si a cotelor de virsta si sex pe straturi culturale 9 stabilirea regulii de selectie la nivel de localitate 211 Distributia populatia! Romania! pa arii culturalo si tipuri do localftatl la 1 07 1989 Tabel 6 7 1 Aria culturala (desemnata prin principala pereche reciproca) si judetele care o compun Tip de localitate (procente pe linie) Tip de localitate (procente pe coloeni) comune orase mici crase mijlocii orase mari i GALAtMAsi s4 6 11 29 17 68 (GL, iS ВТ VS NT VR BC) D iaijomtta-cAUras 52 8 22 18 5,79 (iL CL BL TC) Ш TELEORMAN-GiURGiU 60 9 12 19 10,65 (TR G, ОТ, DJ, MH) • iV VtLCEA-DiMBOVitA 58 13 5 24 41 03 (VL DB AG PH) V CARAs-SEVERiN-HiJNEDOARA 33 23 33 11 4,21 Vi TiMis-ARAD 44 16 13 27 5,32 ViL CLUJ-BiHOR 42 11 8 39 6,06 ѴШ COVASNA-HARGHiTA 52 16 21 11 6,44 (CV HG MS Si) iX ALBA-MARAMUREs 51 13 25 11 5 67 (AB MM BN) X BRAsOV-SiBFU 28 15 12 45 5 20 Xi SATU MARE 54 13 — 33 1 80 ХП gorj 58 18 24 — 1 67 ХШ buzau 60 4 8 28 2,27 1 XiV CONSTANtA 30 15 12 43 3 18 XV SUCEAVA 65 14 4 15 3,02 XVi BUCUREsTi 10 2 — 18 10,02 Total |ar" 100 = 23 151 564 Tabel 6 7 2 Alocarea proportionala a esantionului pe straturi culturalo Aria culturala desemnata prin principala Subesantioane in:   pereche reciproca rezultata din analiza aria comune orase orase orase mici 1 cluster culturala mari mijlocii 1 2 3 4 5 6 1 Galati-iasi 248 135 71 26 16 2 lalomita-Callrasi 81 42 15 17 7* 3 Teleorman-Calarasi 149 90 29 16 14 4 Vilcea-Dimbovita 154 89 37 7* 21 5 Caras-Scverin-Hunedoara 59 20 7* 19 13* 6 Timis-Arad 75 33 21 ’ 9’ 12 7 Chij-Bihor 85 36 33 6* 10* 8 Covasna-Harghita 90 47 10" 18 15* (continuare tabel) 1 2 3 4 5 6 1 9 Alba-Mmmures 79 40 9* 20, 10* 10 Brasov-Sibiu 73 20 33 9* 11 11 Satu Mare 25 14 8 3* 12 Gorj 24 14 — 6* 4 13 Buzau 32 19 9 2* 2* 14 Constanta 45 14 19 5* 7* 15 Suceava 42 28 6 2* 6* 16, Bucuresti 140 17 122 Total 1400 658 429 162 " 1 * Volumele foarte mici, sub 13 persoane, au fost realocate straturilor cele mai mici "invecinate** in tabel Astfel, cele 7 persoane din stratul orase mijlocii - aria Vilcea-Dimbovija, au fost alocate oraselor mici din cadrul aceleiasi arii (21 + 7) Tabel 6 7J Arii Subesaniioane si numar de localitati* total arie comune dr?sc meri orase mijlocii orase mici 1 Galati-iasi 248 11 135 6 71 3 26 1 16 1 2 lalomita-Calarasi 81 4 42 2 15 1 24 1 — 3 Teleorman-CDarasi 149 8 90 3 29 2 16 1 14 1 4 ѴПсеа-Dimbovita 154 7 89 3 37 2 —• 28 1 5 Cans-Severifr-Huncdoera 59 3 20 1 — 39 2 6 Timis**And 75 4 33 2 21 1 21 1 7 Cluj-Bihor 85 5 36 2 49 2 — — 8 Covasna-Harghita 90 4 47 2 — 43 2 9 Alba-Maramures 79 4 40 2 — 39 2 — 10 Brasov-Sibiu 73 4 20 1 33 2 — 20 1 11 Satu Mare ‘ 25 2 14 1 iVi — — 12 Gorj 24 2 14 1 10 1 13 Buzau 32 2 19 1 13 1 — —> 14 Constanta 45 2 14 1 31 1 — 15 Suceava 42 3 28 1 14 1 — 16 Bucuresti 140 2 17 1 123 1 — — 1400 68 666 34 * inainte de (J) este trecut volumul subesantionului pe total strat cultural iar dua (J) numarul de localitati in care urmeaza sa fie aplicate chestionarele Secventele 2 4 in tabelul 6 7 2 este prezentata alocarea proportionala a esantionului de 1400 persoane pe straturi culturale, in conformitate cu distributia populatiei de baza din tabelul 6 7 1 Straturile care au alocate un numar foarte mic de persoane, nu justifica stabilirea unui punct de ancheta la nivelul lor , Orientativ, conform unor practici dominante in domeniu si resurselor cercetarii, am considerat ca instituirea unui punct de esantionare este justificata in cazul in care 213 i in localitatea de referinta sint alocate 15-30 persoane din esantionul total Pentru a evita deplasarea anchetatorilor intr-o localitate pentru intervievarea unui numar foarte mic de persoane, am deplasat subesantioanele foarte mici in straturile "cele mai apropiate** din cadrul spatiului tipologic al stratificarii Deplasari de acest gen s-au impus numai in cazul straturilor culturale urbane Daca denotam prin (m ) stratul cu esantion foarte mic din cadrul arici i, iar cu k si 1 volumele din straturile imediat invecinate in tabelul 6 7 2 cu m , iar 1( 1 ^5,77 x 1077   541 * 14902 e 94 219 in varianta de repartitie proportionala, pentru aria respectiva se prevedea un subcsantion de 65 persoane Sporul de 29 persoane este adus, deci, tocmai de Luarea in consideratie a eterogenitatii interne a ariei de referinta; 5 subesantionul de 552 persoane in comune din ariile mulddepartamentale este alocat pe arii folosind acelasi procedeu ca la pasul anterior, 6 cele doua subesantioane pentru arii unidepartamentale (205 si 102 persoane) se aloca pe arii folosind strict principiul repartitiei proporг чіаіе Mai jos sint prezentate comparativ rezultatele аіос’-г? proportionale (pe care am urmato strict in construirea esantionului efectiv folosit ih multicriteriale este util sa retinem distinctia dintre: A relatii de influenta si intcrinfluenta intre variabile manifeste (relatii structurale); B relatii dc masurare implicind indicatori si variabile latente (analiza factoriala, modele cauzale cu variabile latente, modele LiSREL etc ); C relatii de reprezentativitate (esantionarea); D relatii de similitudine (clasificari uni si multicriteriale) in special pentru primele doua tipuri de relatii s-au dezvoltat o serie intreaga de procedee de sinteza in functie de natura variabilelor implicate in analiza (primele patru capitole ale lucrarii ilustreaza o astfel de diversitate) Sintezele statistice pot fi structurate in jurul unor modele teoretice, pe care le confirma sau le infirma, sau pot opera in absenta unor astfel dc modele Pentru primul caz sint semnificative modelele cauzale si analiza factoriala de confirmare Ele functioneaza in special in contexte de sinteza teoretica in schimb, analizele statistice exploratorii genereaza valori statistice pentru sintezele descriptive Relatiile de masurare pot fi abordate intr-un sens larg ca relatii de reprezenta-tivitatc, similare cu cele construite prin esantionare in cadrul relatiei de masurare, indicatorii pot fi considerati ca esantion de semne posibile pentru reprezentarea variabilei latente O vizualizare a corespondentei dintre diferitele tipuri de relatii (R) care constituie obiectul analizei statistice poate avea forma de mai jos: R intre variabile R intre variabile calitative manifeste cantitative manifeste R intre indicatori si variabile latente R de reprezenlativita te R de similitudine R structurale R de masurare R intre unitati R intre variabile R de rcprezentativitate in sens larg Opozitia relatii sinicturale-relatii dc masurare este formulata explicit in modele cu variabile latente dc tip LiSREL Cea vizind relatiile intre variabile versus relatiile intre unitati se incadreaza in distinctia mai generala dintre analiza R si analiza Q (Loehlin, 1987) 228 L3 CONSTRUCTiViSMUL STATiSTiC Paradigma elementara de aplicare a statisticii opereaza in ipoteza ca exista un set de date si un obiectiv de masurare a acestora in functie de caracteristicile datelor si ale obiectivului se alege o anume metoda de masurare care se aplica datelor respective Rezultatele numerice obtinute se interpreteaza conform exigentelor metodei respective Aceasta este o viziune foarte saraca asupra procesului dc aplicare al statisticii in anumite situatii, destul de putine, se pare, poate fi aplicata Curenta este insa situatia in care datele dc intrare nu satisfac exact exigentele metodei inadecvarea initiala dintre date si metoda poate implica strategii diferite dc rezolvare: - alegerea altei metode; - agregarea unor metode diferite pentru prelucrarea aceluiasi set de date; - transformarea algoritmului de rezolvare; - crearea unui nou algoritm: - transformarea datelor de intrare inainte de a fi supuse algoritmului dc calcul pnn procedee de: • selectare a variabilelor • transformare a variabilelor (normalizare, spre exemplu) • agregarea variabilelor (prin scoruri factoriale etc ) • selectare a unitatilor Aceasta transformare a datelor de intrare este departe de a fi algoritmizata integral Aceeasi algoritmizare partiala poate fi intalnita si la celalalt capat al procesului de aplicare a statisticii Regulile de validare si interpretare pot fi insuficient structurate Aplicarile pe care le vom numi in continuare constructiviste constituie raspunsuri creative bazate pe intuitie si experienta la absenta sau insuficienta metodelor statistice in raport cu un set de date si obiective de masurare Opusul constructivismului statistic il constituie aplicarile conformiste, care tind sa ignore situatiile de inadecvarc din cadrul triunghiului obiectiv-metode-date Este extrem de greu sa ordonezi multitudinea situatiilor in care se impun reactii constructive in aplicarea statisticii Diferentele sint considerabile de la o disciplina la alta, de la un tip de metode la altul Lipseste inca un limbaj capabil sa exprime aceasta problematica in mod sistematic Practicieni sau grupuri de practicieni ai aplicarii statisticii in stiintele sociale lucreaza de cele mai multe ori cu "inventare" scrise sau nescrise ale unor astfel de probleme si ale constructiilor complementare algoritmilor statuati pentru tratarea acestora Din perspectiva sociologiei si a experientei statistice proprii voi incerca o ordonare a principalelor situatii care provoaca raspunsuri constructive in aplicarea statisticii 229 Sc poate vorbi, cred, de trei mari categorii de probleme sau situasi - de incertitudine, dc incompatibilitate a cerintelor si dc costuri incertitudinea poate proveni din insuficienta metodei, din incapacitatea algoritmului statistic de a oferi enieni operationale pentru o decizie metodologica necesara si sau din incompletitudi-nca datelor incompatibilitati le cele mai frecvente se manifesta intre cerintele de constructie a modelelor teoretice si cerintele formale ale aplicarii metodelor statistice Problemele de cost apar ca opozitie intre cerinta practica a minimizarii costurilor de aplicare si cea de maximizare a reprezentauvitatii sau preciziei rezultatelor Domeniile cele mai importante in care pot fi identificate cele trei categorii de probleme mentionate sint asociate cu selectia indicatorilor, ponderarea variabilelor si grupurilor de unitati, modul si nivelul de agregare a variabilelor si selectia unitatilor Sa consideram, pentru exemplificare, selectia indicatorilor incertitudinea sc traduce, in special, prin intrebari de genul: - - care sint cei mai reprezentativi indicatori ai unei variabile latente? - cu ce indicatori putem realiza validarea externa a clasificarilor statistice? - cum poate fi evitata multicoliniaritatea predictonlor in conditiile in care teste precum Glauber, Haitovsky etc nu furnizeaza predictii convingatoare in acest sens? Selectiile automate de Lip regresiv, progresiv sau pas cu pas de asemenea, nu pot asigura o protectie impotriva unor erori de acest gen (vezi 2 3 , 2 6 ) in planul incompatibilitatii pot apare contradictii intre variabilele incluse in model pe baza unor exigente teoretice si cerintele formale ale modelului Astfel, in cazul modelelor dc regresie multipla, satisfacerea conditiilor dc specificare corecta a modelului poate fi insotita dc incalcarea principiului noncoliniaritatii, de incompara-bilitaica valon lor sintetice rezultate datorita unitatilor de masura diferite ale predictonlor, dc includerea in model a unor variabile care nu au distributie normala etc in fine, problemele de cost in sclecpa indicatorilor se pun in special in legatura cu esantionarea Maximizarea reprezentativitatii prin construirea unor straiuri cit mai omogene, cu vanatic marc intre straturi intra frecvent in contradictie cu nevoile de minimizare a costurilor anchetei in domeniul ponderarii, dominante sint problemele de incertitudine: - in ce situatii este de preferat sa facilitezi ponderarea bazata pc covariatie (scopuri fac io riale, coeficienti epistemici etc - vezi 5 4 etc ), pe decizie logica sau autoponderarea de tip Adanson - cum validezi corectitudinea unui mod de ponderare? - in functie de variatia intragnipala a caruia dintre indicatorii in baza carora sint construite straturile pentru esantionarea stratificata realizezi alocarea optima a esantionului (vezi 6 4 , 6 7)? Problemele agregarii pot fi atit de incertitudine cit si de incampatibiliiate^ - cum poti evita arte fac te statistice (de tipul erorii ecologice semn&ia^ de Robinson) daca nivelul de agregare a variabilelor in modelele dc corelatie sau de regresie nu 230 este cel adecvat din punct de vedere teoretic? Analiza contextuala sau multinivel este o solutie care cere insa date disponibile la diferite nivele de agregare (H, BlalocL, 1984); - in ce situatii este de preferat agregarea aditiva celei multiplicative? Luarea deciziei in situatii de genul celor mentionate este mai mult chestiune de arta decit de stiinta Cel putin pentru cimpul stiintelor sociale, constructivismul statistic poate fi orientat, cred, prin citeva valori sau principii de baza in primul rind poate fi mentionat primatul teoriei si acesta este valabil atit in pregatirea datelor pentru calculul statistic, cit si in procesul de validare a rezultatelor in al doilea rind, ar fi mentionat principiul orientarii gindirii statistice spre tipic, spre "citirea realitatii pe liniile ei esentiale*' in buna linie constructivism (Markov, Bishop) poate fi sustinut primatul algoritmului intuitiv asupra celui suprasofisticat, in special in conditiile in care datele au un nivel de masurare redus sau sint relativ neadecvate cerintelor algoritmului de mare complexitate in fine, insuficienta si complementaritatea metodelor, instabilitatea sporita a vietii sociale si calitatea, cel mai adesea, slaba a datelor dc cercetare justifica principiul experimentalismului, a! testarii stabilitatii rezultatelor la schimbari in setul de variabile, in setul de unitati sau in metoda de analiza ANEXA 1 Distributia normala Caracteristicile distributiei normale (sau gaussiene) sint de maxima importanta pentru intelegerea fundamentelor conceptuale ale statisticii in stiintele sociale in mod special, incepind cu Qudtelet si a sa teorie a "omului mediu*4, premisa variatiei fenomenelor sociale dupa modelul "normal** a fost larg acceptata Chiar daca in prezent se pune in evidenta tot mai mult varietatea formelor de repartitie statistica a fenomenelor sociale, raportarea la distributia normala ramine o caracteristica importanta a modului de gindire statistic Din aceste motive, familiarizarea cu unele caracteristici de baza ale repartitiei normale sau rememorarea lor poate fi utila pentru cititor Doua sint problemele in jurul carora ar putea fi grupate aspectele de maxima semnificatie in domeniu: cum se masoara intensitatea variatiei daca distributia este normala si cum poate fi recunoscuta o distributie ca fiind normala Paralel cu precizarea aspectelor teoretice, vom reaminti si citeva dintre formulele de maxima circulatie utilizate pentru caracterizarea seriilor normale in seria precizarilor introductive (la aceasta anexa) includem si pe cea referitoare la sensul termenului de repartitie (distributie) statistica O astfel de repartitie este formata din valorile unei variabile si frecventele corespunzatoare acestora Frecventele asociate valorilor x( ale variabilei X pot fi exprimate ca frecvente absolute (f ), relative (f( ) sau cumulate (formate prin adunare de frecventa succesive) 231 Repartitiile normale sini cele in care frecventele sau cazurile** tind sa se aglomereze spre centrul seriei de date, spre media lor si sa devina tot mai putine pc masura cc se realizeaza o deplasare dc la medic spre valorile extreme ale variabilei de maxim si de minim Aceasta descrestere de la centrul seriei de date spre extreme fiind simetrica de ambele parti ale medici, forma distributiei este una de clopot in cazul curbei normale ideale, frecventele corespunzatoare valorilor extreme ale variabilei nu sint nicodata egale cu zero in consecinta, curba de reprezentare a distributiei normale nu este "inchisa**, nu intra in contact cu axa valorilor variabilei Aceasta din urma are, in cazul distributiei normale, un caracter continuu Reamintim ca o variabila continua este cea care, intre doua limite date, contine o infinitate de valori Virsta, greutatea, viteza sint astfel de variabile Prin opozitie, variabilele discrete sint cele pentru care intre doua limite date exista un numar finit de valori , Masurile care concentreaza maximum de informatie asupra distributiei normale sint media (x) si abaterea standard (a) Pentru date negrupate: Lx x- - n unde x( - valoarea variabilei x pentru unitatea i n - numarul de unitati Daca datele sint grupate, aceleiasi valori x a variabilei corespunzindu-i mai multe cazuri, respectiv frecventa f, atunci: unde  f = n Pentru exemplificare sa consideram distributia a 230 dintre orasele Romaniei in functie de rata de natalitate in 1968 (Exemplul poate fi semnificativ nu numai metodologic, ci si pe linie de continut dat fiind ca sc refera la situatia care a urmat masurilor pronataliste din 1966): Rata natalitatii in 1968 Centrul intervalului Numar orase f x f 1 1 15 1-20 17,5 15 262,5 20 1-25 22 5 47 1057,5 25,1-30 27 5 79 2172,5 30 1-35 32 5 70 2275 35,1-40 37 5 15 562,5 + 40 41,5 4 •166 Total 230 6496 232 Variatia in jurul mediei se masoara prin suma patratelor (SS) dispersie (o2) si abatere standard Suma patratelor se calculeaza ca suma a patratului abaterilor valorilor seriei de la medie: SS =   (x - x)2 f sau pentru variabilele cu valori negrupate: SS =  (x -xX x Prin impartirea acestei sume de patrate se obtine dispersia Pentru date negrupate: iar pentru date grupate: Dispersia este, deci, o medie a sumei patratelor deviatiilor de la medie O varianta de calculare a dispersiei, fara utilizarea mediei, poate fi utila in anumite situatii: sau, pentru date grupate ix2-f  xf 2 x, z > 0 Daca x = x , z = 0 1 1’1 1’1 Repartitia normala exprimata cu ajutorul transformarii z, poarta numele de repartitie normala redusa Aceasta are media egala cu zero (deci L z = 0) si abaterea standard egala cu 1 234 in anexa 2 este prezentat labelu cu ariile curbei normale Suprafata totala a anei normale este 1, scmmficind suma tuturor frecventelor relative (  (f n), unde f - frecventa pentru valoarea x iar n totalul frecventelor) Jumatate din ana respectiva, fie la dreapta, fie la stinga mediei reprezinta 0,5 din totalul frecventelor cumulate Valorile din interiorul tabelului indica aria cuprinsa intre medie si un anume scor z Valoarea z se citeste in prima coloana a tabelului, iar sutimile de la aceasta valoare pe prima linie Aria normala cuprinsa intre medie si z = 1,96, spre exemplu, este indicata la intersectia liniei cu z = 1,9 si coloana • 06 si este 0,4750 Deci, in intervalul dintre medie si z = 1,96 este cuprinsa 47,5% din aria normala sau, daca sc ia in consideratie toata aria dintre z s -1,96 si z = 1,96, aria normala corespunzatoare este 0,475 x 2 = 0,95 Frecventele care corespund valorilor variabilei r din intervalul -1,96 >133 07586 36815 43625 18637 37509 14707 93997 66497 68646 78138 66559 64397 11692 05327 82162 83745 22567 48509 23929 27482 45476 04515 25624 95096 67946 16930 33361 15470 48355 88651 22596 63761 60873 41253 84145 20368 07126 20094 98977 74843 93413 14387 06345 8 1854 09279 41196 37480 a 73788 06533 28597 20405 51321 92246 fluoea 77074 66919 31678 60530 45128 74022 84617 72472 00008 80890 18002 35352 54131 44372 15486 6574 1 14014 05466 55306 93128 18464 79962 68416 1861 1 1924) 66083 24653 84609 58232 41849 84547 46850 52326 58319 15997 08355 60860 29735 47762 46352 33049 69248 93460 9 61199 67940 55121 29281 59076 07936 1 1087 96294 14013 31792 18627 90872 00911 98936 76355 93779 52701 08337 56303 87315 00441 58997 14060 40619 29549 69616 57275 36898 81304 48585 32624 68691 І4845 46672 61958 77100 20857 Лі56 70284 24326 65961 73488 41839 55382 17267 70943 15633 84934 9O4iS 936)4 10 20288 34O60 39685 73309 10061 68829 92694 4 8297 39904 02115 59362 95938 744 16 53166 35208 33374 77613 19019 86152 00080 99782 93478 53152 67433 35663 52972 38688 32486 45134 63545 Raportul F pentru probabilitatea P(F S F^) = 0,95 si numarul gradelor de libertate 'X! 1 1 2 3 4 | s 1 1 ’ 1 8 9 10 11 12 13 1 161 200 216 225 230 234 237 239 241 242 243 1 244 245 2 18 5 19 0 19 2 19 2 19 3 19 3 19,4 19,4 19 4 19 4 19 4 19 4 19,4 3 10 1 9 55 9,28 9 12 9,01 8,94 8,89 8 85 8 81 8 7fi 8 76 1 1 " '4 8 73 4 7 71 6 94 6 56 6 39 6 26 6 16 6,09 б‘(М 6,00 5,96 5 94 1 5 91 5*88 1 5 6 61 5 79 5 41 5 19 5 05 4 95 4 88 4 82 4 77 4*74 1 4 70 4*68 4*66 6 5 99 5 14 4,76 4,53 4 39 4,28 4 21 4*15 4 10 4 06 4*03 4 00 1 3*98 7 5 59 4,74 4 35 4 12 3,97 3 87 3,79 3 73 3 68 3 64 3,60 3 57 3*55 8 5 92 4 46 4 07 3 84 3 69 3 58 3 50 3 44 3J9 3*35 3 31 3 28 3*26 9 5 12 4 26 3 86 3 63 3,48 3 37 3*29 3 23 3 18 ! 3 14 3 10 3 07 3*05 1 10 4 96 4 10 3 71 3 48 3 33 3,22 3J4 3*07 302 2 98 2 94 2 91 2,89 11 1 4 84 3 98 3 59 3 36 3,20 3 09 3,01 2 95 2,90 2*85 2 82 2,79 2J6 12 4 75 3 89 3 49 3,26 3,11 3 00 2 91 2 85 2 80 2 75 2 72 2 69 2*66 1 13 4 87 3 81 3 41 3 18 3,03 2 92 2,83 2 77 2*71 2 67 2 63 2 60 2*58 1 14 4 60 3,74 3 34 3,14 2 96 2 85 2*76 2 70 2 65 2*60 , 2 57 2 53 2*51 1 15 4 54 3 68 3 29 3 06 2 90 2,79 2 71 2 64 2 59 2*5! 2 51 2,48 2’45 t 16 4 49 3 63 3 24 3,0) 2 65 ? 74 2 66 2 59 2,54 2 49 2 46 2,42 2*40 j 17 4 45 3 59 3 20 2 96 2 81 2 70 2 6) 2 55 2,49 2*45 2 41 2 38 2*35 1 lft 4 41 3 55 3 16 2 93 2,77 2 66 2 56 2 51 2 46 2 41 2 37 2,34 2*31 1 19 4 38 3 52 3,13 2 90 2 74 2 63 2 54 2 48 2 42 2 38 2 34 2,31 2* 28 i 20 4 35 3*49 3 10 2 87 2 71 2 60 2,51 2 43 2 39 2,35 2 31 2,23 2*25 1 21 4 32 3,47 3,07 2,64 2 6Я 2 57 2 49 2,42 2 37 2 32 2 28 2,25 2*22 | 22 4 30 3,44 3 05 2,82 2 66 2 55 2,46 2 40 2 34 2 30 2 26 2 23 2*20 23 4 28 3 42 3 03 2 80 2 64 2 53 2,44 2 37 2 32 2 77 2 20 2*18 1 24 4 26 ! 3 40 3 01 2 78 2*62 2*51 2,42 2*36 i 2 30 2 25 2*2] ' ! 2 18 2 15 ! 25 4 24 3 39 2 99 2 76 2,60 2 49 2,40 2,34 3 28 2*24 2 20 2 16 ?J4 ’ 26 4 23 3 37 2 98 2 74 2,59 2 47 2 39 2 32 2 27 2 22 2,18 2,15 2*12 27 4 21 3 35 2 96 2,73 2,57 2 46 2*37 2 31 2*25 2*20 2 17 2 13 2J0 28 4 20 3 34 2 95 2,71 2 56 2*45 2 36 2 29 2 24 2,19 2j5 2 12 2 09 29 4 18 3 33 2 93 2 70 2 55 2*43 2 35 2 28 2 22 2 1M 2 14 2 10 2 08 30 4 17 3 32 2 92 2 69 2,53 2*42 2 33 2^27 2*21 2J6 2 13 2 09 2 06 32 4 15 3*29 2 90 2 67 2 51 2 40 2,31 2*24 2 19 2 14 2 10 2 07 ; 2 04 34 4 13 3 28 2 K8 2,65 2,49 2 38 2,29 2*23 2*17 2 12 2>K 1 1 2 05 2 02 36 4J1 3 28 2*S7 2 63 2*48 2 36 1 2 28 2,21 2 iS 2 11 2 07 2 03 2 00 38 4*10 3 24 2 85 2 62 2 46 2 35 2*26 2 19 2 14 2 09 2 05 1 1 2 02 1*99 40 4,08 3 23 2 84 2 61 2 45 2 34 2*25 2 18 2 12 2 08 2 04 2 00 1 97 42 4 07 3 22 2 83 2,59 2 44 2 32 2 24 2 17 2 11 2 06 2 03 1 99 l> 44 4 06 3 21 2 82 2,58 2 43 2,31 2,23 2 16 2 10 2 05 2 01 1 98 1 95 46 4 05 3 20 2,61 2 57 2,42 2,30 2 °2 2 15 2,09 2,04 2 00 1 97 1 94 48 4,04 3,19 2,80 2,57 2,41 2,29 1 2 21 2 14 2,08 2,03 1 99 1 96 1 93 50 4 03 3,18 2 79 2,56 2 40 2 29 2 20 2 13 2 07 2,03 1 99 1 95 1,92 55 4 02 3 16 2 77 2 54 2,38 2,27 2,18 2,11 2,06 2,01 1 97 1 93 1 90 60 4,00 3 15 2 76 2 53 2 37 2 25 2,17 2 10 2 04 1 99 1 95 1 92 1 89 65 3 99 3 14 2,75 2 51 2 36 2 24 2,15 2 08 2 03 1 9Я 1 94 1 90 1 87 70 3 99 3 13 2 74 2 50 2 35 2 23 2 14 2,07 2 02 1 97 1 93 1 89 1 66 30 3,96 3 11 2 72 2 49 2 33 2 21 2 13 2 06 2 00 1 95 1 91 1 68 1 84 90 3,95 3 10 2 71 2 47 2 32 2 20 2,11 2,04 1,99 1 94 1,90 1 86 1 83 iDO 3,94 3,09 2,70 2 46 2 31 2,19 2,10 2 03 1 97 1 93 1 Я0 1 85 1 82 125 3,92 3 07 2,68 2,44 2,29 2,17 2,08 2 01 1 96 1 91 1 1 87 1 83 1 80 150 3,90 З О6 2,66 2 43 2 27 2,16 2,07 2,00 1 94 1 89 1 65 k82 i 1 79 200 3,89 •3 04 | 1 2 42 2 26 2,14 2 06 1 98 1 93 1 88 1 84 1 R0 1 77 300 3 87 3 03 2 63 2 40 2,24 2,13 2,04 1 97 1,91 1,86 1 82 1 76 1,75 500 3,86 3 01 2 62 2,39 2 23 2,12 2,03 1,96 1 90 1 85 1,81 1 77 1,74 1000 3 85 3,00 2 61 2 38 2 22 2 11 2,02 1,95 1 89 1 84 1,80 1 76 1 73 (Г, 3,84 3 00 2 60 2,37 2 2] 2,10 2 01 1 94 1,88 1 83 1 1 79 ' 1 1 > 75 1 72 1 Repartitia Student Valorile iul i, corespunzatoare probabilitatii p = Pft< 1,)^ numarului gradelor de P libertate v 1 ¥ '—U n 80 К 95 •7 5 09 90,11 99,9 0995 1 2 0,315 0 727 1 376 3 078 6,314 12 71 31 02 63 66 381 3 630 6 3 C 3H0 0,617 i 06i І,няб 2,920 4 103 8 06s 9 925 22 33 31 80 0 277 0 584 0,97 fi 2,353 3 102 4 541 5 841 10 72- 12 94 0 271 n MJ9 0 941 1,533 2,1 те- 2,770 3 74? 4 604 7 173 F OiO 0 267 0 559 0,920 1 476 2 015 2 571 8 365 4 032 5,893 6 059 7 O ?65 0 553 0 000 1,440 1 043 2,447 3,143 3,707 5 208 5 959 6 O 2ti3 0,549 0 Я96 1 415 1 085 2,365 2 990 3 499 4 785 5 405 O,2"2 0 546 O ftfP 1 397 l Rlitf 2 30rt 2 ЯМ 3,355 4 501 5 041 0 2(11 0,543 0 083 1,303 1,833 2,262 2 821 3 250 4 297 <791 11 0 260 0,542 0,679 1,372 1,812 2 2 20 i 2 764 3 169 4 144 4,587 12 0,260 0,540 0,876 і;юз 1,706 2,201 2 718 3 108 4 025 4,437 13 0 2 <19 0,530 0 873 1,358 1 7A2 2 179 2,681 3 055 3,930 4 319 14 0 2S9 0 5^0 0 870 1,350 1,771 2 iHO 2,650 3,012 3,853 4 221 H Vse 0,537 О МЙ 1 34 5 1 761 2,145 2 624 2 977 3,767 4 І4О 16 O 25H 0,538 0 Я66 1 341 1,753 2 13! 2 602 2 947 3 733 4 073 17 0 15" 0 535 0^63 1 337 ] 7 4в 2,120 2,583 2 921 8,686 4 015 iR 0,257 0 534 о едл 1 333 1,740 2 П0 2,587 2 09Й 9 646 3 965 19 0 25? 0,534 0 862 1,330 1,734 2,101 2 552 2 076 3 611 3 922 20 0 157 0 533 0 ЙН1 Li 20 1 729 2 093 2 539 2 061 3 B79 3 603 21 0,257 0 533 0,860 1 325 1 725 2 0МІ 2,520 2,04s 3 552 3 850 22 0,257 0 532 0,S59 1,323 1 721 2 OA0 2,518 2 831 3,527 3,019 23 ojse 0 592 0,050 1 321 1 717 2 074 2,408 2 019 3,505 3,792 24 0 236 0 532 0,95" 1 319 1,714 2 009 2,500 2,907 3,485 3 767 2S 0 2&3 0,531 0 857 1,310 J 7i1 2 064 2,402 2 797 3,407 3,740 26 0ДЧ 0 531 0 8M 1,316 1 706 2,060 2,48s 2 707 3 4Л0 3 725 27 0,256 0 531 O fiW 1,315 1,706 2 056 2 479 2 772 3 435 3,707 28 0 256 0 531 0 S5S 1,314 1,703 2,052 2,473 2,771 3 421 3 690 29 0 256 0,530 0 855 1,313 1,701 2,046 2,46? 2,763 9 408 3,674 30 0 256 0,530 0 854 1,311 1,699 2,045 2 462 2,756 3,396 3,659 40 0 2 S6 0,530 O,fi54 1 310 1 697 2 042 2 4s7 2 750 3 345 3 646 60 0,255 0 52" 0,851 1 Я03 1 8R4 8 021 2 423 2 704 9,307 3,551 60 0 255 0,52" 0 Л4Й 1 2ЙЯ 1 076 2 009 2,403 2,670 3 282 3 465 ВО 0,527 0,fi4H 1 2W 1 071 2,000 2,390 2 080 5,232 Э 44Ю 100 0 254 0,527 0 646 1 282 i 1 664 1,000 2,374 2 639 3 195 3 415 200 0,254 0 520 0 845 1 290 1,860 1 964 2 363 2,626 3,174 3,309 500 0 254 0,525 0 843 1,208 1 638 L972 2 345 2,601 3,131 3 53" bC 0 253 0 525 0,042 1 283 1 ,048 1 965 2 334 2 MO 3,108 3,310 0 153 0 524 0 842 1 282 1 645 LW 2,328 2 576 3,090 3 291 Exemplu de utilizare a tabelului Pentru p - 95 si v = 6 rezulla tq = 1 943 Deci P(t <? 1 943) = 95% BiBLiOGRAFiE ACHEN, CHRiSTOPHER 1982 interpreting and Using Regresion, Sage Publications, Bevcrly Hills BAlLEY KENNETH 1975 Cluster Analysis in D R Hcise (cd ), 1975 BARTON ALLEN 1957 TheConcept ofProperty-Space, inLazarsfcld and Rosenberg (eds)" 1975 BLALOCK HUBERT M 1972 Social Statistic* McGraw Hill 2nd edition BLALOCK, HUBERT M (ed) 1974 CausalModels in the Social Sciences, MacMillan BLALOCK HUBERT M 1984 Contextual-effeclsModels Theoreticaland Methological issues, in Ralph Tumer (cd), 1984 BOHRNSTEDT G W and CARTER, T M 1971 (cds) Sociological Methodology, Sasi Francisco, Jossey-Bass BOHRNSTEDT, G , CARTER, T M 1971 Robusiness in Regression Analysis in Bohmstcdt, Cancr (eds ), 1971 BOYLE, RiCHARD 1970 Path Analysis and Ordinal Data "American Journal of Sociology", voi 75 CHELCEA, SEPTiMiU 1975 Chestionand in investigatia sociologica Editura stantifica si Enciclopedica, Bucuresti COSinER, H L (ed ) 1974 Sociologica! Methodology, 1973-1974, San Francisco Jossey-Bass DAViS, J A 1974 Hierarchicalmodelsfor significance tests in muhivariate contingency tables: an exegesis of Goodman’* recent papers, in Cosincr (cd ), 1974 DUNCaN, P A 1974 Path Analysis: Sociological Exemples, in H M Blalock (ed ), 1974 ENESCU GHEORGHE 1985 Dictionar de logica, Editura stiintifica si Enciclopedica, Bucuresti GELLERT, W" KOSinER H HELLW1CH M , KaSinER H (editori)19W Mica Enciclopedie de Matematica, Editura Tehnica, Bucuresti GOODMAN LEO 1972 A General model for the analysis of surveys, in "American Journal of Sociology", voi 77, no 6, GRONAU, R 1977 Leisure, home product ion and work - The Theory of allocation of Типе revisited, in "Journal of Political Economy", voi 85 HANUSHEK E JACKSON J E 1977 Statistica!Methodsfor Social Scientists, Academic Press HEiSE, DA ViD R (ed ) 1974 Sociological Methodology 1975, San Francisco, Jossey*Bass iOSiFESCU M MO1NEAGU C TREBiCi,VL (coord ), URSJANU fi Mica Enciclopedie de Statistica, Editura stiintifica si Enciclopedica, Bucuresti JESSEN, RAYMOND 1978 Statistical Survey Techmques John Wiley, New York 242 KNOKE, D BURKE 1981 Log-Lmear Models, Sage Publications LAZARSFELD, P ROSENBERG M (eds ) 1957 The Language of Social Research A Readcr іл the Methodology of Social Research, Free Press, Second ed LOEHLLN, J , 1987, Latent Variables Models, Lawrance Erlbaum LORR MAL'RiCE 1983 Cluster Analysis for Social Scientist*, Jossey-Bass Publishers, San Francisco MOSER, C A 1967 Metode de Ancheta in investigarea Fenomenelor Sociale, Editura stiintifica, Bucuresti MOiNEAGU, C NEGURA i URSEANU, V 1976 Statistica, Editura stiintifica si Enciclopedica NORUSlS, MARLTA 1985 Advanced Statistic* Guide SPSS*, McGraw Hill MUELLER J H , SCHUSSLER K F COSinER H L 1970 Statisticei Reasorung in Sociology Houghton Mifflin New York PARKER R N SMiTH, M D 1984 High CorrelationandMulticolinearity, andWhattoDoabout Either: Reply to Light, in "Social Forces" voi 62, no 3 RODGERS,G B ,WERY,R 1979TheEffectsof EconomicPolicy onFenility in United Nalions, Demographic Transition and Socio-Economic Development, New York ROEGEN N G 1933 Metoda Statistica Elemente de statistica matematica, imprimeria Nationala, Bucuresti SANDU DUMiTRU 1988 A it emotive si optiuni ale analizei statistice in sociologia contemporana, in "Viitorul Social", nr 3 SANDU, DUMiTRU 1989 a Mod de viata si fertilitate: model pentru integrarea unui fenomen in contextul producerii sale in C Zamfir, i Rebedeu (coord ), 1988 SANDU, DUMiTRU 1989 b Tranzitie si diferentiere demografica in mediul rural in "Viitorul Social", nr 4 SANDU DUMiTRU 1990 a Houxing as a Social Reproduction System in O Siksio (e<f ), 1990 SANDU, DUMiTRU 1990 b Ariile culturale ale Romaniei, in "Sociologie Romaneasca", nr 3—1 S1KSJ0, O , (ed) 1990, Housing Sociology in Times of Changc, CiB Publicatton 125 SMiTH, G M 1971 Ghid Simplificat de Statistica pentru Pedagogie si Psihologie Editura Didactica si Pedagogica, Bucuresti SNEATH, P H A 1957 The Application of Computer* to Taxonomy, in Journal of General Microbiology", voi 17 SOKAL, R R and SNEATH, P H A 1963 Principie* of Numerical Taxonomy, San Francisco Freeman SUPPES PATKiCK 1990 Metafizica Probabilisti, Editura Humanitas, Bucuresti TURNER, RALPH (ed ) 1984 Annual Review of Sociology voi 10 TREBiC1 VL HR1STACHE i 1986 Demografia Teritoriala a Romaniei Editura Academiei, Bucuresti W1LSON, THOMAS P 1971 Critique of Ordinai Variables, in "Social Forces", voi 49 YULE G U KENDALL M G 1969introducere inTeoriaStatisticii, Editura stiintifici Bucuresti ZAMFiR C REB EDEU, 11989 Stiluri de viata Dinamica lor in societatea contemporana Editura Academiei, Bucuresti ZAMFiR CaTaLiN 1987 Structurile gindirii sociologice Editura Politica, Bucuresti YEOMANS, K A , 1968, Applied Statistic* Statistic* for the social scientist*, Pengiun Books, 243 244 Dat la cules 15 4 1992 Bun de tipar 7 09 1992 Coli tipografice 15,25 Tiparul s a efectuat sud comanda nr 299 la Tipografia Universitatii Bucuresti